思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理

全文2101字,阅读约需6分钟,帮我划重点

划重点

01OpenAI发布了新模型o1,具有强大的推理能力,尤其在药物发现、材料科学等领域。

02谷歌DeepMind首席科学家丹尼·周表示,Transformer模型可以通过生成一系列中间推理token来实现强推理能力。

03为此,谷歌DeepMind与合作者在1月份的国际学习表征会议上发表了相关论文《思维链使Transformer能够解决固有的串行问题》。

04除此之外,谷歌DeepMind还在预印本网站arXiv上发表了另一篇论文,探讨优化大语言模型测试时计算比扩大模型参数更高效的方法。

以上内容由腾讯混元大模型生成,仅供参考

几天前 OpenAI 新模型 o1 的发布,再次引发了人们对大语言模型的高度关注和讨论。

而 o1 发布之所以如此“轰动”,是因为它与此前大模型由语言驱动用于聊天或语音助手有本质的不同。其不仅进入到复杂的领域,还表现出超强的推理能力。

OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试。根据结果,二者差异显著,其中,前者正确解决问题的准确率是 13.4%,而 o1 的准确率则能够达到 83.3%。

这种推理能力的重要意义在于,有望在更广泛的领域应用,例如,药物发现、材料科学、编程、高等数学和物理等。

o1 实现超强推理能力的原因在于它的思考能力,而这背后源于强化学习和思维链(CoT,Chain of Thought)。

这意味着,大模型在给出答案之前,会有一种类似人类思考的过程,然后进行推理。

就在人们对大模型的推理能力进行讨论的时候,谷歌 DeepMind 首席科学家丹尼·周(Denny Zhou)近日在 X 发文称,其与合作者此前在一篇论文中已经对 CoT 进行研究。

丹尼提到,“我们已经用数学方法证明,Transformer 可以解决任何问题,只要允许它们根据需要生成任意数量的中间推理 token。”

根据论文内容,如果大模型具有足够多的时间形成 CoT 进行思考,那么,就具有能够解决任何问题的可能性。而他对此的观点是:“大模型推理能力的极限是什么?天空才是极限。”

综合来看,前文提到的基于生成一系列中间推理 token,是实现大模型思考过程和表现出强推理能力的关键所在。

图片

(来源:X)

相关论文题目为《思维链使 Transformer 能够解决固有的串行问题》(Chain of Thought Empowers Transformers to Solve Inherently Serial Problems),并已于 1 月在国际学习表征会议(ICLR,International Conference on Learning Representations)2024 发表 [1]。

除了丹尼,其他三位论文作者分别是:美国丰田工业大学助理教授李志远、美国斯坦福大学博士研究生 Hong Liu 和助理教授马腾宇。

图片

图丨相关论文(来源:ICLR)

指导模型生成 CoT,是提升大模型在算术和符号推理任务中,准确的、非常有效的方法之一。但此前,人们对于 CoT 背后的机理的认识并不清晰。

在以往的研究中,Transformer 模型表现出明显的优劣势:在并行计算方面表现出优势,但在串行推理方面却表现不足。

CoT 为该问题提供了解决方案,研究人员在该论文中也展现了对相关理论的理解。

图片

(来源:ICLR)

他们提出,没有 CoT 的常数深度 Transformers 在有限精度下只能解决恒定深度阈值电路类问题。

而通过 CoT,能够常数深度算术电路类问题得以解决,甚至是更复杂的计算问题。

他们通过实验验证,CoT 在解决并行计算难以处理的任务(如排列群的组合、迭代平方和电路值问题)时,能够显著提高模型的准确性。

该研究在理解 CoT 增强 Transformer 的推理能力方面提供了新的理论基础,并为未来在复杂任务中应用 Transformer 提供了新的视角。

除了这篇论文,谷歌 DeepMind 在发表的另一篇论文中,也可看到与 OpenAI 的 o1 模型类似的原理。

相关论文已在预印本网站 arXiv 发表,题目为《优化大语言模型测试时计算比扩大模型参数更高效》(Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters)[2]。

论文作者包括:美国加州大学伯克利分校博士研究生查理·斯内尔(Charlie Snell)、谷歌 DeepMind 技术员 Jaehoon Lee 和研究员徐凯文(Kelvin Xu,音译)以及美国卡内基梅隆大学(此前为谷歌 DeepMind 团队成员)助理教授阿维拉·库马尔(Aviral Kumar)。

图片

图丨相关论文(来源:arXiv)

他们提出了一种“计算最优”的策略,即根据给定的提示动态分配测试时的计算资源,以实现最佳的性能提升。

通过实证研究,展示了通过 CoT 可以显著提高并行计算难以处理的任务的准确性。

该论文强调了增加测试时(推理时)计算的有效性,而不仅是扩大模型的参数量。

研究发现,在某些情况下,通过优化测试时的计算,可以在不增加模型规模的情况下提高模型性能。

其中,在与模型参数规模相匹配的浮点运算次数评估中,研究人员发现,在较小的基础模型上使用测试时,计算可以超越一个 14 倍大的模型。

图片

(来源:arXiv)

总体来看,在 o1 模型发布之前几个月,谷歌就已经提前“押中”了具有超强推理能力的大模型核心原理。但遗憾的是,其并未基于此推出相关产品,而 OpenAI 则率先发布了 o1 模型。

对此,美国人工智能初创公司 Abacus.AI 的 CEO 宾杜·雷迪(Bindu Reddy)在社交平台写道:“谷歌的研究水平是顶尖的,但模型却是落后的。”

后续,谷歌是否将更新 Gemini2 或公布其他进展,DeepTech 将持续关注。

参考资料:

1.https://arxiv.org/abs/2402.12875

2.https://arxiv.org/pdf/2408.03314

3.https://x.com/denny_zhou/status/1835761801453306089

4.https://x.com/bindureddy/status/1835866551964348423

5.https://www.technologyreview.com/2024/09/17/1104004/why-openais-new-model-is-such-a-big-deal/

运营/排版:何晨龙