为了给大模型找语料,有人开始进行“互联网考古”

过去一年,AI大模型无疑是科技行业中最亮眼的主角,从FAAMG到BAT、再到一众初创企业,无数优秀的大脑、海量的资源都投入到了这个有望解放人类生产力的赛道中。围绕构建更强大的AI大模型,科技巨头、AI独角兽更是展开了一轮又一轮的厮杀,对于算法、数据、算力的争夺如今也已达到了白热化状态,其中特别是数据资源更是成为了重中之重,毕竟没有它来作为燃料,不光无法训练更强的大模型、现有的大模型也可能会“熄火”。
图片
为了收集更多的数据、或者说是语料来浇灌大模型,“买买买”就成为了一众AI厂商的解决方案,例如谷歌每年花6000万美元从Reddit手中买数据,OpenAI更是付费购买了施普林格出版集团旗下出版物的内容。眼见财大气粗的AI厂商挥舞钞票,越来越多的人也开始意识到了语料的价值。
日前照片分享社区EyeEm突然变更了服务条款,宣布将默认使用平台上的照片来训练AI大模型。
据悉,EyeEm方面通过邮件通知用户,该公司在其条款和条件中添加了一项新的条款,授予其"复制、分发、公开展示、转换、改编、制作衍生作品、向公众传播和/或推广"用户内容的权利,包括用于培训、开发和改进软件、算法和机器学习模型,用户有30天的时间可选择退出,否则就默认为同意这一用途,未来用户想要从EyeEm及其合作伙伴平台上删除内容可能需要长达180天。
图片
一石激起千层浪,EyeEm此举几乎是将觊觎用户照片的想法摆在了台面上。要知道,在当下这个用户普遍重视个人隐私的时代,用突然更改用户协议的方式来表示自己准备将收集的用户数据作为AI训练的语料,就等于是直接与用户交恶。
那么问题就来了,为什么EyeEm会搞出这种几乎属于自绝于用户的操作呢?当然是因为身不由已。
成立于2010年的EyeEm,曾被视为全球知名图片社交平台Instagram在欧洲市场的竞争对手,前者在最鼎盛时期曾拥有超过2000万名活跃的优秀视觉创作者。并且与Instagram不同的是,EyeEm非常受摄影师的青睐,因为其推出了极具商业价值的Mission功能,可以让品牌向EyeEm社区众包照片,帮助平台上的摄影师赚到钱。
然而遗憾的是,EyeEm这样一个将商业化与社区建设恰如其分融合到一起的厂商,最终还是被Instagram碾压了。在Instagram被Meta收购后,前者借助Meta的社交网络成功席卷全球,但与之相对应的是,2018年之后EyeEm就开始走下坡路,到了2021年,这家公司被瑞士社交网站Talenthouse以4000万美元的价格收购。只可惜在Talenthouse手中的EyeEm也没能起死回生,因为普通用户并不需要两个图片分享社区。
到了2022年年中,EyeEm已经无法按时向摄影师支付报酬。随后在2023年4月,EyeEm正式申请破产保护。同年10月,这家仅剩3名员工的公司,被西班牙在线平面设计资源网站Freepik收购。
显而易见,在申请破产保护之后,EyeEm就已经只是一个空壳了,用户规模也萎缩至15万人。对于一个非技术导向、或者说产品导向的互联网公司来说,从2000万用户衰退到15万,也就意味着EyeEm已经无法说服用户继续使用他们的产品了。
Freepik之所以收购EyeEm,就是为了后者所拥有的1.6亿张图像资源。Freepik已然成为一个数据掮客,为了向AI大模型厂商出售语料资源,而买下了已经失去经营价值的EyeEm。从某种意义上来说,Freepik也算是独具慧眼,发现了EyeEm这样一家注定玩完的互联网公司的剩余价值。
要知道自从进入新世纪以来,尝试在互联网行业进行创业的团队不知几凡,但毕竟Meta、X、Reddit这样的成功者只是少数,更多的初创公司最终都成为了“炮灰”。只不过在这一众失败者里,有不少是曾经煊赫一时的存在,但他们最终因为种种原因陷入了沉寂。而在AI大模型爆发以前,类似EyeEm这样的失败者其实是毫无价值的,因为它们的商业模式失败了,竞争对手脱颖而出。
图片
然而当下最火热的AI大模型需要海量的数据来浇灌,在同等条件下,预训练时投喂的数据越多,AI大模型的性能就越强,这已经是业界的共识。只是优质数据总归是稀缺资源,根据人工智能研究机构epoch的预测,语言数据可能在2030至2040年耗尽,其中能训练出更优性能的高质量语言数据甚至可能在2026年就被耗尽。在这种情况下,EyeEm这类沉淀了数据资源的失败者,突然就变得有了价值。
因此有了Freepik的珠玉在前,未来可能会有越来越多公司去尝试从互联网创业的失败者身上挖掘可能存在的数据资源,进而让互联网考古不再是部分网民的兴趣,更有可能真正变成一门生意。
【本文图片来自网络】