客户端
游戏
无障碍

0

评论

1

3

手机看

微信扫一扫,随时随地看

真 开源! 史上第一个100%开源的AI大模型:OLMo!公布了代码!数据集!训练全过程!

AI大语言模型的意义不言而喻!如今它的商业价值不断提升,最强大的模型(对说的就是你,openAI)也变得越来越封闭。隐藏在API后面的训练数据、架构和开发细节不为人知。

鉴于开源精神,还有对于不透明带来的风险担忧,艾伦人工智能研究所、华盛顿大学、耶鲁大学、纽约大学和卡内基梅隆大学的研究人员做了一个一个划时代的举动!他们将训练一个AI大模型的一切数据都开源了,包括数据和调试细节!

图片

为此,今天详细介绍了OLMo,这是一个先进的、真正开放的AI大语言模型!

希望借此给其他的开源们做个好榜样,这才是 真 开源!

OLMo的特点

OLMo目前有两个版本1B和7B,65B正在路上,还未公布。

图片

OLMo使用了Dolma这个开放的数据集进行预训练。Dolma是一个由3万亿个来自多样化的网络内容、学术出版物、代码、书籍和百科资料的令牌组成的开放数据集。它是目前最大的用于LLM训练的开放数据集。

OLMo提供了Paloma这个基准,用于评估开放的语言模型在多个不同领域的表现(从小众的艺术社区到关于心理健康的reddit论坛)。

在相同规模下,OLMo-7B评分还是可以的。

图片


OLMo的所有开源资料

代码

https://github.com/allenai/OLMo

Weights

https://huggingface.co/allenai/0LMo-7B

Data

https://huggingface.co/datasets/allenai/dolma

Evaluation

https://github.com/allenai/0LMo-Eval

Adaptation

https://github.com/allenai/openinstruct

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部