零一万物回应旗下大模型抄袭：主流大模型架构大同小异

鞭牛士

2023-11-15 17:12发布于北京鞭牛士官方账号

+关注

鞭牛士 11月15日消息，近日，创新工场董事长兼CEO李开复创办的“零一万物”所开源的Yi-34B和Yi-6B模型被指抄袭。今日下午，零一万物发布对《对Yi-34B训练过程的说明》，正式回应抄袭质疑。

零一万物表示，基本上国际主流大模型都是基于Transformer的架构，做attention，activation，normalization，positional embedding等部分的改动，LLaMA、Chinchilla、Gopher 等模型的架构和GPT架构大同小异。

零一万物称，公司从零开始训练了 Yi-34B 和 Yi-6B模型，并根据实际的训练框架重新实现了训练代码，用自建的数据管线构建了高质量配比的训练数据集（从3PB原始数据精选到3T token高质量数据）。

以下为公告全文：

在《说明》发布后，李开复转发了文章并表示：“全球大模型架构一路从 GPT2--> Gopher --> Chinchilla-->Llama2-->Yi，行业逐渐形成大模型的通用标准(就像做一个手机app开发者，不会去自创iOS、Android 以外的全新基础架构)。01.AI 起步受益于开源，也贡献开源，从社区中虚心学习我们会持续进步。”

此前，原阿里首席AI科学家贾扬清发朋友圈暗指“零一万物”旗下的大模型涉嫌抄袭。他表示：“国内一款新的大模型事实上是LLaMA架构，但是为了表示不一样，把代码里面的名字从LLaMA改成了他们的名字，然后换了几个变量名。”

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。