研究称AI大模型可能会在2026年消耗完互联网上所有免费信息

全文1449字,阅读约需5分钟,帮我划重点

划重点

01一项新研究警告称,人工智能(AI)系统可能最早在2026年吞噬互联网上的所有免费知识。

02为ChatGPT提供支持的GPT-4或Claude 3 Opus等人工智能模型依赖于在线共享的数万亿个单词来变得更加智能。

03然而,研究预测,它们将在2026年至2032年之间的某个时候耗尽公开可用的数据。

04为此,科技公司将需要开始从其他地方寻找数据,可能包括生成合成数据、转向质量较低的来源,或利用存储消息和电子邮件的服务器中的私人数据。

05尽管数据稀缺可能是人工智能持续改进的挑战之一,但科技领袖们仍在寻求解决能源消耗问题的方法。

以上内容由腾讯混元大模型生成,仅供参考

鞭牛士报道,6月22日消息,据外电报道,一项新研究警告称,人工智能(AI)系统可能最早在 2026 年吞噬互联网上的所有免费知识。
为 ChatGPT 提供支持的GPT-4或Claude 3 Opus等人工智能模型依赖于在线共享的数万亿个单词来变得更加智能,但新的预测表明,它们将在 2026 年至 2032 年之间的某个时候耗尽公开可用的数据。 
这意味着,为了建立更好的模型,科技公司将需要开始从其他地方寻找数据。这可能包括生成合成数据、转向质量较低的来源,或者更令人担忧的是,利用存储消息和电子邮件的服务器中的私人数据。
研究人员于 6 月 4 日在预印本服务器arXiv上发表了他们的研究结果。
「如果聊天机器人消耗了所有可用的数据,而数据效率没有进一步提高,我预计该领域将出现相对停滞。」研究第一作者、研究机构 Epoch AI 的研究员Pablo Villalobos告诉 Live Science。「随着新算法见解的发现和新数据的自然产生,模型只会随着时间的推移而缓慢改进。」
训练数据推动了人工智能系统的发展——使它们能够找出越来越复杂的模式,并将其扎根于神经网络中。例如,ChatGPT 的训练使用了大约 570 GB 的文本数据,总计约 3000 亿个单词,这些数据来自书籍、在线文章、维基百科和其他在线资源。
在不充分或低质量的数据上训练的算法会产生粗略的输出。谷歌的 Gemini AI 曾臭名昭著地建议人们在披萨上加胶水或吃石头,它的部分答案来自 Reddit 帖子和讽刺网站 The Onion 的文章。
为了估算网上有多少文本可用,研究人员使用了谷歌的网络索引,计算出目前大约有 2500 亿个网页,每个网页包含 7,000 字节的文本。然后,他们通过对互联网协议 (IP) 流量(网络上的数据流)和在线用户活动的后续分析来预测可用数据库存的增长。
研究结果显示,来自可靠来源的高质量信息最迟将在 2032 年之前耗尽,而低质量的语言数据将在 2030 年至 2050 年间耗尽。与此同时,图像数据将在 2030 年至 2060 年间被完全消耗。
事实证明,随着数据集的增加,神经网络会可预测地得到改善,这种现象称为神经缩放定律。因此,尚不清楚公司是否可以提高模型的效率以解决缺乏新数据的问题,或者关闭水龙头是否会导致模型改进停滞不前。
然而,维拉洛博斯表示,数据稀缺似乎不太可能显著抑制未来人工智能模型的发展。这是因为公司可以采用多种可能的方法来解决这个问题。
「越来越多的公司开始尝试使用私人数据来训练模型,例如Meta 即将推出的政策变化。」他补充道,该公司宣布将从 6 月 26 日起利用与平台上聊天机器人的互动来训练其生成式人工智能。「如果他们成功做到这一点,并且私人数据的实用性与公共网络数据相当,那么领先的人工智能公司很可能将拥有足够多的数据,可以持续到本世纪末。到那时,其他瓶颈(如功耗、不断增加的培训成本和硬件可用性)可能比缺乏数据更为紧迫。」
另一种选择是使用合成的、人工生成的数据来喂养饥饿的模型——尽管这以前只在游戏、编码和数学的训练系统中成功使用过。
或者,如果公司试图在未经许可的情况下获取知识产权或私人信息,一些专家预计未来将面临法律挑战。
「内容创作者抗议未经授权使用其内容来训练人工智能模型,其中一些人起诉了微软、OpenAI和Stability AI等公司。」技术和知识产权法专家、澳大利亚麦考瑞大学副教授Rita Matulionyte在 The Conversation 中写道。「获得报酬可能有助于恢复创意人员和人工智能公司之间存在的一些权力不平衡。」
研究人员指出,数据稀缺并不是人工智能持续改进的唯一挑战。根据国际能源署的数据,由 ChatGPT 驱动的谷歌搜索消耗的电量几乎是传统搜索的 10 倍。这使得科技领袖们试图开发核聚变初创企业来为他们耗电的数据中心提供能源,尽管这种新兴的发电方法还远未可行。