CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用
关键字：性能,任务,符号,数据,模型
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：桃子
【新智元导读】CoT只对数学、符号推理才起作用，其他的任务几乎没什么卵用！这是来自UT-Austin、霍普金斯、普林斯顿三大机构研究人员联手，分析了100+篇论文14类任务得出的结论。看来，CoT并非是所有大模型标配。谷歌CoT开山之作，再次成为OpenAI o1模型的利器。
LLM复杂推理能力的实现，就离不开一步一步思考，但是这种「思考」究竟对于什么类型的任务有帮助呢？
来自UT-Austin、霍普金斯、普林斯顿的研究人员，使用CoT对100多篇论文，进行了定量元分析。
论文地址：https://arxiv.org/abs/2409.12183
同时，他们还对14个模型的20个数据集，进行了评估。
结果显示，CoT在涉及数学、逻辑任务中，能够增强LLM性能，但在其他类型任务上，收益较小。
在MMLU中，除非问题或模型回答中包含“=”（表示符号运算和推理），否则直接生成答案，而不使用CoT，能达到与使用CoT相同的准确率。
基于这一发现，作者通过分离「规划」和「执行」，并工具增强的LLM进行比较，来分析CoT在这些任务中的行为。
结果证实，CoT的大部分收益，来

原文链接：CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用