速递丨训练数据不够用了！字节为AI大模型推出网络爬虫，吞噬速度比OpenAI还快25倍！新模型或为AI搜索

ZFinTech

2024-10-07 09:00发布于北京科技领域创作者

全文1253字，阅读约需4分钟，帮我划重点

划重点

01字节跳动推出网络爬虫Bytespider，抓取训练生成式人工智能模型所需数据，速度比OpenAI快25倍。

02Bytespider已成为互联网上最激进的抓取工具之一，抓取数据速度是其他大公司的数倍。

03由于Bytespider的积极抓取行为，作品被抓取的个人和组织认为他们的版权受到侵犯。

04与此同时，字节跳动正在改进新的大语言模型，其中一个目标与TikTok的搜索功能有关。

05TikTok的搜索环境将包含最新互联网趋势和主题数据，对于很多在谷歌上投入大量资金的人来说，将非常有吸引力。

以上内容由腾讯混元大模型生成，仅供参考

图片来源：字节跳动

据媒体报道，字节跳动似乎急于弥补从网络上抓取训练生成式人工智能模型所需数据所浪费的时间。据 Kasada 的研究显示，字节跳动在 4 月份发布了自己的网络爬虫或抓取机器人，名为 Bytespider。

Kasada 是一家专门为拥有在线数据的公司提供机器人管理的公司。监控抓取机器人的 Dark Visitors 也证实了该机器人的存在。

研究显示，字节跳动的机器人已迅速成为互联网上最激进的抓取工具之一。它抓取数据的速度是其他大公司的数倍，例如谷歌、Meta、亚马逊、OpenAI 和 Anthropic，这些公司使用自己的抓取机器人来帮助创建和改进大型语言或多模态模型（称为 LLM 或 LMM）。

Kasada 首席执行官 Sam Crowther 表示，自 Bytespider 推出以来，其数据抓取速度约为 GPTbot 的 25 倍。GPTbot 为 OpenAI 的 ChatGPT 平台和底层模型抓取数据。Bytespider 的数据抓取速度是 ClaudeBot 的 3,000 倍，ClaudeBot 来自 Anthropic，负责运营 Claude 平台。

Kasada 表示，随着时间的推移，Bytespider 变得更加激进。数据显示，在过去六周中，Bytespider 的抓取活动每周都会大幅增加。

研究显示， Bytespider 机器人与 OpenAI 和 Anthropic 的机器人非常相似。Robots.txt是发布者可以放入网站的一行代码，虽然不具有任何法律约束力，但它应该向抓取机器人发出信号，表示它们不能获取该网站的数据。

网络抓取可以追溯到几十年前，当时主要由搜索引擎收集网页链接。但生成式人工智能工具的兴起增加了一个新的维度，使这种做法成为诉讼和争议的主要来源。

作品被抓取的个人和组织认为，他们的版权在此过程中受到了侵犯。生成式人工智能工具所依赖的所有模型都是在大量在线数据上训练的，实际上这些数据包括网络上的所有内容，尤其是书面信息。科技公司使用抓取机器人免费复制所有内容并将其放入他们的数据集中。

“他们好像在拼命追赶，”Crowther 谈到 Bytespider 的积极抓取行为时说道。据报道，就在去年，字节跳动在生成式人工智能竞赛中落后，以至于它此前使用 OpenAI 来帮助字节跳动建立自己的大语言模型，这违反了 OpenAI 的服务条款。

今年早些时候，字节跳动发布了一款名为豆包的基于聊天的大语言模型，但该模型的工作应该在 Bytespider 抓取的最新训练数据积累之前完成。

据一位熟悉该公司的人士称，字节跳动正在“明显”地改进新的大语言模型。至于字节跳动计划用新的大语言模型做什么，一位熟悉该公司野心的人士表示，其中一个目标与 TikTok 的搜索功能有关。

上周，TikTok 发布了对当前搜索功能的更新，该功能专注于广告关键词，基本上允许广告商实时搜索 TikTok 上的热门词汇。它允许营销人员使用相关关键词制作广告，这表面上有助于广告出现在更多用户的屏幕上。

据了解该公司愿景的人士透露，包含最新互联网趋势和主题数据的新 AI 模型可以进一步扩展和改善 TikTok 的搜索环境。 考虑到受众和使用量，TikTok 的搜索环境是一个完全可竞价的关键词和主题空间，对于很多现在在谷歌上投入大量资金的人来说，这将非常有吸引力。

来源：

查看原图 1012K