CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用

全文2800字,阅读约需8分钟,帮我划重点

划重点

01三大学府机构联手证实,CoT仅在数学、符号推理任务中起作用,其他任务收益较小。

02研究人员对100多篇论文进行定量元分析,发现CoT在数学、逻辑推理任务中性能最优,平均提高分别为14.2%、12.3%和6.9%。

03然而,在其他类型任务上,使用CoT的平均性能仅为56.8%,没有使用CoT的平均性能为56.1%。

04未来研究中,需超越基于提示的CoT,转向利用整个LLM中间计算的新范式。

以上内容由腾讯混元大模型生成,仅供参考

图片



  新智元报道  

编辑:桃子
【新智元导读】CoT只对数学、符号推理才起作用,其他的任务几乎没什么卵用!这是来自UT-Austin、霍普金斯、普林斯顿三大机构研究人员联手,分析了100+篇论文14类任务得出的结论。看来,CoT并非是所有大模型标配。

谷歌CoT开山之作,再次成为OpenAI o1模型的利器。

LLM复杂推理能力的实现,就离不开一步一步思考,但是这种「思考」究竟对于什么类型的任务有帮助呢?

来自UT-Austin、霍普金斯、普林斯顿的研究人员,使用CoT对100多篇论文,进行了定量元分析。

图片

同时,他们还对14个模型的20个数据集,进行了评估。

结果显示,CoT在涉及数学、逻辑任务中,能够增强LLM性能,但在其他类型任务上,收益较小。

图片

在MMLU中,除非问题或模型回答中包含“=”(表示符号运算和推理),否则直接生成答案,而不使用CoT,能达到与使用CoT相同的准确率。

基于这一发现,作者通过分离「规划」和「执行」,并工具增强的LLM进行比较,来分析CoT在这些任务中的行为。

结果证实,CoT的大部分收益,来自于符号执行的改进,但相对于使用符号求解器来说,表现较差。

图片

总而言之,作者希望通过研究告诉我们,CoT并非是万能的。

「CoT可以有选择性地应用,以平衡性能和推理计算成本」。

另外,未来研究中还需超越基于提示的CoT,转向利用整个LLM中间计算的新范式。

图片

用CoT,还是不用CoT,这是一个问题


o1成为当红炸子鸡,一大原因便是采用了CoT架构。

但是,千万不要被OpenAI误导了。

图片

其实,先前就有研究称,CoT在数学以外的领域,并没有那么有用,甚至有时会损害模型性能。

最新研究中,作者的目标是去评估,基于提示的CoT在哪些领域发挥作用最大,以及具体的原因。

110篇论文,14大类别


对此,研究人员从机器学习顶会ICLR 2024、两个NLP顶会EACL 2024和NAACL 2024中,筛选了所有4642篇论文(2259篇来自ICLR 2024,2,382篇来自两个ACL附属会议)。

在这些论文中,通过自动筛选出现CoT、chain-of-thought或chain of thought两次的文章,共得到516个样本。

然后,下一步通过手动筛选,得到对「CoT提示与直接提示进行比较」的论文。

经过一系列排除,最终收集了110篇论文样本,涵盖了264个数据集。

最后,研究人员将所获得样本中的不同任务,分成14个类别。

图片

图片

如下图2所示,在不文献中,作者发现CoT在任务分类中的性能增益。

可见,CoT在符号推理、数学、逻辑推理三大类别任务中,性能最优,平均提高分别为14.2%、12.3%和6.9%。

使用CoT的前三项任务,平均性能为56.9%,而没有CoT的性能为45.5%。

对于其他类别任务,使用CoT的平均性能为56.8%,而没有使用CoT的平均性能为56.1%。

图片

图2右侧显示了,在数学、符号或逻辑推理以外的任务实验中,平均CoT增量较高10个异常值。

虽然这些论文没有被归类为数学逻辑,但其中一些在某种程度上与逻辑、数学或符号推理相关。

从这个列表中可以看出,从CoT中获益最多的数据集是BIG-bench Hard。还有BIG-bench Temporal、MMLU-Moral Scenarios都涉及到了基本简单问题的组合。

图片

同时,还有几个异常值,也隐约遵循这一趋势。比如,ScienceQ是由一系列自然和社会科学科学选择题组成,但如果不按学科/问题类型细分成绩,很难解释其收益。

其次,在一些论文分析中,其他论文评分结果并未显示出CoT带来的改进。

实验结果


更进一步的,团队在零样本学习和少样本学习的设置下,对14个模型的20个数据集进行了一系列实验,以比较性能。

与CoT相比,零样本CoT有何改进?


如下图3所示,具体显示了图1中,每个推理类别的平均CoT性能改进。右侧呈现的是,对每个数据集使用CoT所带来的性能增益,这是所有模型和单个模型选择的平均值。

在非符号推理类别和数据集上,特别是那些包含主要涉及常识(CSOA、PIOA、SiOA)、语言理解(WinoGrande)和阅读理解((AGILSAT、ARC-Easy、ARC-Challenge)问题的数据集。

零样本CoT和零样本直接回答的性能之间,几乎没有区别。

尽管这些数据集中涉及推理,但是CoT并没有带来显著的改进。

图片

相较之下,数学和符号类别,与符号和许多符号数据集一起得到了大幅改进。

MATH和GSM8k的增幅分别高达41.6%和66.9%。对于半符号数据集如Mvsteries等,结果显示出适度的增幅。

例如,从简单的自然语言(ContextHub)或更复杂的常识陈述(MuSR 谋杀之谜)解析出一阶逻辑。所有结果均显示在附录 C.1中,表7中还显示了 CoT 和直接答案提示的完整数字结果列表。我们还探索了少数镜头设置,发现它对 CoT 何时提供帮助的影响不大;参见附录 B。

答案形式,是否会影响到CoT帮助的范围?


答案——不多,预先规划或推理正确反应,可能会阻碍模型自主反应能力。

除了数学之外,许多常用的问题数据集是多项选择。

对于两个非多项选择,且包含不同级别的非符号推理来回答问题数据集,CoT具有与跨模型直接回答相似的性能。

其次,BiGGen Bench使用自由式回答作为问题答案,并使用LLM作为法官,以1-5级来评估这些回答。

得到的答案,本质上模糊了CoT和直接答案之间的界限。

为此,研究人员设置了一个新的CoT提示,要求语言模型生成自由形式响应的规划,然后要求其在生成完整的响应。

知识、软推理和常识方面,性能提升显著吗?


除了MMLU、StrategyQA和MuSR外,大多数情况下答案是否定的。

作者使用配对引导法在知识、软推理和常识推理类别的13个数据集上,测试了CoT改进的显著性。

结果得出,大约 38%的数据集显示出,这三个推理类别的效益是显著的。

MMLU和MMLU PRO


MMLU和MMLU Pro显示了,使用CoT带来收益,但由于这些数据集非常广泛,因此无法进行简单的表征。

研究人员探索了MMLU每个类别上的CoT性能,以了解这些领域之间CoT性能的差异。

对此,他们列出了3个类别,其中CoT在MMLU和MMLU Pro上,Llama 3.1 8B和70B最大的误差减少。

图片

其中,一些任务类别明显是数学性质,正如图8中所呈现的那样。

此外,我们还可以看到,CoT在商业任务上,能够提供一定的帮助。经过仔细核查,这些任务也会常常涉及数学等一些内容。

图片

实验结果如下图4所示,当问题或生成结果汇总包含“=”,以及不包含“=”时,使用CoT时的增益效果。

图片

CoT在公式推理中的优缺点


前面主要说明了CoT主要在符号推理任务发挥作用,但没有说明具体原因。

在符号任务上,研究人员CoT的性能提升归因于两个阶段:规划阶段和执行阶段。

图片

下图6显示了,代表性模型选择的结果。

将直接答案与Plan+ Direct求解器和Plan+CoT求解器进行比较时,可以注意到,对于许多数据集和模型,仅有规划并不能解决大部分性能增益。

与直接答案相比,需要CoT或Plan+CoT求解器,来获得强大的性能。

尽管CoT和Plan+CoT求解器,比直接答案和Plan+Direct求解器有优势,但在大多数设置中,仍以Plan+Tool求解器为主。

与符号求解器相比,LLM执行和追踪步骤的能力受到限制。

图片

鉴于以上的发现,研究团队认为CoT应该有选择性地应用,尤其是在需要处理数学、逻辑推理的任务。

而不分青红皂白地使用CoT,可能会导致推理成本增加。

他们还建议,若想进一步提升模型推理能力,还需要超越基于提示的CoT。

总而言之,CoT is not all you need。

图片



参考资料:



图片