70%错误回答的思考过程中至少含一个正确思路
原标题:新研究揭示DeepSeek/o3弱点:频繁切换思路放弃正确方向,最短答案往往就是对的!
文章来源:量子位
内容字数:4133字
大型语言模型的“欠思考”现象及解决方案
近期研究揭示了大型语言模型(LLM),例如DeepSeek-R1和Qwen QwQ系列,在处理高难度问题时存在的“欠思考”(Underthinking)现象。该现象表现为模型在解题过程中频繁切换思路,却缺乏深入探索,最终导致错误答案。腾讯AI实验室、苏州大学和上海交通大学的研究团队对此进行了深入研究。
1. “三心二意”的AI:频繁切换思路导致失败
研究发现,LLM在遇到难题时,经常在早期找到正确的解题思路,但却“浅尝辄止”,迅速转向其他思路,导致后续生成的数千个token对解题毫无贡献。这种“无效努力”不仅浪费计算资源,还严重降低了答案的准确率。在数学竞赛题等复杂任务中,这种现象尤为明显。
2. 实验结果:错误答案消耗更多资源和思维切换
研究团队在MATH500、GPQA Diamond和AIME2024三个具有挑战性的测试集上,对DeepSeek-R1-671B和QwQ-32B-Preview等模型进行了实验。结果显示,在错误回答中,LLM平均消耗了正确回答225%的token,思维切换频率增加了418%。超过70%的错误答案中至少包含一个正确的思路,超过50%的错误答案中,有10%以上的思路是正确的。 这表明模型并非完全缺乏正确的思路,而是缺乏深入探索的能力。
3. Underthinking Metric:量化“欠思考”程度
研究团队开发了一个Underthinking Metric指标,用于量化“欠思考”的程度。该指标通过测量错误答案中token的使用效率来评估推理效率。实验结果表明,所有测试的类o1模型都存在显著的思维不足问题。不同数据集上,模型准确率与“欠思考”程度的关系也存在差异。
4. 解决方案:思路切换惩罚机制(TIP)
研究人员借鉴人类考试策略,提出了一种“思路切换惩罚机制”(Thought Switching Penalty,TIP)。该机制通过对触发思路切换的关键词施加惩罚,降低这些词在解码过程中的生成概率,迫使模型在当前路径上探索更久。实验结果显示,加入TIP能提高模型在数学测试上的准确率,同时降低UT Score,说明既减少了无效切换,又提高了答案质量。例如,在AIME2024测试上,QwQ-32B-Preview模型的准确率从41.7%提升至45.8%。
5. 简洁解码(Laconic decoding):另一种有效方法
UC Berkeley教授Alex Dimakis的研究也观察到类似现象,并提出了一种“简洁解码”(Laconic decoding)方法。该方法并行运行模型多次,选择token数量最少的答案。初步实验结果表明,简洁解码在AIME2024测试上能提高6%-7%的准确率。
总而言之,理解和解决LLM的“欠思考”现象对于开发更强大、更可靠的AI模型至关重要。TIP和Laconic decoding等方法为解决这一问题提供了有效的途径。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破