OpenAI o1推理能力超博士，慢下来思考对AGI有多重要？

文汇

2024-09-13 22:05发布于上海文汇报官方账号

没有发布会，没有预告，也不是期待中的GPT-5——今天凌晨，OpenAI对外公开了最新一代大模型OpenAI o1，也就是传闻中的“草莓”大模型。OpenAI首席执行官山姆·阿尔特曼表示，尽管作答前需要花费更多时间思考，但在处理难而复杂的任务上，OpenAI o1达到了当下人工智能的最高水平，展现出强大的推理能力。这也是o1名字的来源——一个新的开始，将计数器重置为1。

由于o1模型并未开源，目前许多信息都来源于OpenAI“自报家门”。不过OpenAI已经邀请相关专家学者进行了试用。一位马克斯-普朗克研究所的量子物理学家展示了o1-preview（o1的早期版本）正确完成计算的复杂量子物理问题。

作为OpenAI下一代 “推理” 模型中的第一个，o1模型目前已开放使用，同时开放了API（应用程序编程接口），现在人们可以品尝这颗“草莓”的味道了。

强化学习，推理能力超越博士水平

“确实很强。”获悉o1大模型发布后，复旦大学计算科学技术学院教授黄萱菁给出如此评价。

数学曾是大模型的短板。今年6月，上海人工智能实验室选取零一万物、智谱AI、阿里云通义等6个开源模型及GPT-4o进行高考“语数外”全卷能力测试，结果数学普遍不及格，平均得分率仅为36%（150分满分）。

在解决博士水平的物理问题时，上一代最强模型GPT-4o也是“不及格”的59.5分，o1模型则一跃而至“优秀档”获得92.8分。这样的成绩能够跻身美国前500学生的行列，超过美国数学奥林匹克的入选分数线。在测试化学、物理和生物学专业知识的基准GPQA-diamond上，o1的表现全面超越人类博士专家，展现出此前模型所不具备的超级推理能力。

OpenAI表示，o1模型采用了强化学习技术，通过增加测试、推理时的计算资源，显著提高了模型性能。所谓强化学习，是一种让计算机自己从与环境的交互中不断学习以达到目的的训练方法。在这个过程中，计算机就像一个蹒跚学步的孩子，根据现实世界的反馈不断调整自己的姿态，在跌倒中学会行走。

强化学习的目标是长期回报最大化，因此它能在不断试错中前进。比如在接到复杂任务后，GPT-4o会说干就干，但o1会进行深入思考，生成一个较长的内部思维链，包括复述一遍问题的要求、拆解任务、明确最终目标以及查漏补缺，它甚至还会提醒自己其中可能存在的陷阱，并列出需要用到的知识点和步骤。完成这些之后，它才开始工作。

上海人工智能研究院研究员王资凯表示，o1模型的“链式思考”机制类似于人类在面对难题时的思考过程，从而提高了解决问题的准确性和灵活性。这种训练方法可使模型在处理复杂任务时更审慎也更聪明，减少“幻觉”问题的出现。

不断试错，获得系统中的“最优解”

互联网上，如果加载一个网页的时间超过3秒，57%的人会离开，要想留住用户，必须守住这个“3秒定律”。但目前o1模型花费在思考上的时间为几秒到十几秒，而且OpenAI还表示，未来的改进方向是努力增加模型“思考”的时间。

为什么会作如此选择？答案还是和强化学习有关。过去的大模型如果第一次回答错误，那么大概率第10000次还是会错，但在推理中引入强化学习后，计算机就能在不断试错中获得“最优解”，即随着思考时间的延长而提高正确率。

上海期智研究院学术带头人吴翼曾在OpenAI工作过，他在一支6人团队中花了一年多时间做了一个多智能体强化学习捉迷藏项目。在他们创造的模拟环境中，有小蓝人（负责藏）和小红人（负责捉）以及许多道具。博弈一共进行了6个阶段，一开始小蓝人只会往远处奔跑，但很快他们就学会了用箱子把自己围起来，小红人也学会了爬梯子，最终小蓝人把梯子和箱子都锁起来，这样小红人无法使用任何工具，双方分数趋于平稳。

在2024 IOI信息学奥赛题测试中，o1-preview模型在每题尝试50次条件下取得了213分，属于人类选手中前49%的成绩。如果允许它每道题尝试10000次，就能获得362.14分，可获得金牌。

如果给o1模型足够长的思考时间，是否就能产出令人惊奇的成果？OpenAI表示，o1系列可以帮医疗保健研究人员注释细胞测序数据，帮助物理学家生成量子光学所需的复杂数学公式，所有领域的开发人员可使用o1来构建和执行多步骤工作流程。

快慢系统齐头并进，通往AGI之路已现？

2002年诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考，快与慢》一书中提出，人脑有快慢两套系统，快系统能够依靠直觉快速作判断，慢系统需要总结、计算，非常耗费脑力。国际象棋大师下车轮棋是“快系统”，他们凭借几万小时的训练和记忆力，从棋盘格局中通过模式识别判断落子位置。高等数学则是典型的“慢系统”，需要调动知识、计算、逻辑与检验能力。

清华大学惠妍讲席教授周伯文表示，从人工智能发展的进程来看，最初人们认为AI更适合做“快系统”的工作，比如人脸识别。但从AlphaGo到ChatGPT，AI在技术发展的推动下越来越擅长“慢系统”任务，且能力增长速度会超过我们原来的预期。

不少OpenAI员工也分别用“快系统”和“慢系统”来区别o1模型与之前模型的区别。在数据分析、编码和数学等推理密集型类别中，o1模型明显优于GPT-4o；但在某些自然语言任务上，GPT-4o优于o1模型。对于以实现通用人工智能（AGI）为目标的OpenAI来说，手握GPT与o1两大系列模型，似乎已具备了快慢系统齐头并进的能力。

这也印证了周伯文在今年世界人工智能大会上的观点，即AI的下一个突破点会从纯虚拟的存在转到帮助人类在物理世界、生物世界和信息世界中创造更高价值。下一代AI亟需更强知识、计算、推理的组合能力，通过快慢系统的结合，人类最终得以与AI完成交互的范式变革。

　　作者：沈湫莎

文：沈湫莎图：OpenAI官网、截图编辑：沈湫莎责任编辑：任荃

查看原图 337K