CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用

CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用

AIGC动态欢迎阅读

原标题:CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用
关键字:性能,任务,符号,数据,模型
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:桃子
【新智元导读】CoT只对数学、符号推理才起作用,其他的任务几乎没什么卵用!这是来自UT-Austin、霍普金斯、普林斯顿三大机构研究人员联手,分析了100+篇论文14类任务得出的结论。看来,CoT并非是所有大模型标配。谷歌CoT开山之作,再次成为OpenAI o1模型的利器。
LLM复杂推理能力的实现,就离不开一步一步思考,但是这种「思考」究竟对于什么类型的任务有帮助呢?
来自UT-Austin、霍普金斯、普林斯顿的研究人员,使用CoT对100多篇论文,进行了定量元分析。
论文地址:https://arxiv.org/abs/2409.12183
同时,他们还对14个模型的20个数据集,进行了评估。
结果显示,CoT在涉及数学、逻辑任务中,能够增强LLM性能,但在其他类型任务上,收益较小。
在MMLU中,除非问题或模型回答中包含“=”(表示符号运算和推理),否则直接生成答案,而不使用CoT,能达到与使用CoT相同的准确率。
基于这一发现,作者通过分离「规划」和「执行」,并工具增强的LLM进行比较,来分析CoT在这些任务中的行为。
结果证实,CoT的大部分收益,来


原文链接:CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...