o1如何做到像人一样“推理”?OpenAI研究团队揭秘模型细节、未来规划

全文1264字,阅读约需4分钟,帮我划重点

划重点

01OpenAI发布了o1系列模型,标志着AI领域迈入通用复杂推理任务的大模型时代。

02o1系列包括两个版本:o1-preview和速度更快的轻量级o1-mini。

03研究人员将o1比喻为拥有超能力的“外星人”,通过强化学习实现推理能力。

04与GPT-4o相比,o1在推理和泛化能力上展现出令人印象深刻的水平。

05未来,o1将支持更大的输入上下文窗口,并有望在多模态理解任务上达到最先进的水平。

以上内容由腾讯混元大模型生成,仅供参考

每经编辑:张锦河,宋欣悦

9月13日,OpenAI宣布了o1系列模型的正式亮相,标志着AI领域迈入了一个全新的纪元,迎来了能够执行通用复杂推理任务的大模型时代。模型发布后,OpenAI研究团队在X社交平台上举办了一场AMA(Ask Me Anything)活动,深度揭秘了o1系列模型的诸多细节。

图片

图片来源:X社交平台

01 “外星人”级别的AI助手

OpenAI表示,o1系列包括两个版本:作为完整模型早期迭代的o1-preview,以及速度更快的轻量级o1-mini。与之前的模型不同,o1能够在给出最终答案前生成长链的隐藏思维过程,展现了类似人类的推理能力研究人员将o1比喻为拥有超能力的“外星人”

图片

图片来源:X社交平台

在推理过程中,o1使用了强化学习来实现“推理”这一性能。尽管目前没有计划向API用户或ChatGPT展示这些思维链token,但研究人员透露,嵌入提示中的指令可以影响o1的思维方式。相比之下,GPT-4o无法通过提示达到o1的思维链性能水平

图片

图片

图片来源:X社交平台

o1系列模型使用与GPT-4o相同的分词器,在输入token上保持一致。不过,o1能够处理更长、更开放的任务,减少了对输入分块的需求。未来,o1还将支持更大的输入上下文窗口

o1还展现了令人印象深刻的推理和泛化能力,例如破译密码、思考哲学问题以及通过自我测验来评估自身能力。

研究团队还透露,o1-preview在某些个性化写作任务上的表现与GPT-4o相当或略胜一筹。

02 mini版本竟然更强?

与o1-preview相比,o1-mini在体积和速度上进行了优化。

图片

图片来源:X社交平台

尽管在像世界知识这样的某些领域可能有局限,但o1-mini在STEM(科学、技术、工程、数学)任务以及代码相关任务上展现出了其优势。此外,o1-mini能够探索比o1-preview更多的思维链

图片

图片

图片来源:X社交平台

03 o1即将支持工具集成与多模态理解

尽管o1-preview目前尚未使用工具,但OpenAI计划为其加入功能调用、代码解释器和网页浏览等能力。工具支持、结构化输出和系统提示也将在未来的更新中推出

图片

图片来源:X社交平台

此外,OpenAI开发者团队表示,未来用户将有望能够控制o1的思考时间以及token限制,并承诺将积极推进这一功能的实现。

OpenAI还在积极推进流式传输支持和API中的推理进度反馈。此外,o1已经内置了多模态能力,有望在多模态理解任务(MMLU)上达到最先进的水平。

图片

图片

图片来源:X社交平台

04 o1-mini每周有50次提示限制

o1-mini目前对ChatGPT Plus用户开放,但有每周50次的提示限制,所有提示都计入相同的配额。OpenAI承诺,未来将逐步提高API访问级别和速率限制,并在限制放宽后提供批量定价优惠

o1模型的定价预计将遵循每1-2年降价的趋势。此外,个性化微调支持已在产品路线图中,但具体发布时间表尚不明确。

图片

图片

图片来源:X社交平台

05 最大化o1性能的秘诀

o1-mini目前使用截至2023年10月的数据进行训练,未来的迭代将使用更新的数据集来扩充其世界知识。

为了充分发挥o1的推理优势,团队建议用户在设计提示时提供信息丰富、涵盖边缘案例的具体示例,并明确指定所需的推理步骤和风格。但要注意,无关的上下文可能会干扰模型的推理过程

每日经济新闻综合自公开消息