当AI遇上字母游戏…
原标题:DeepSeek R1遇难题142次"I give up",研究还称需增加推理时机控制机制
文章来源:量子位
内容字数:5933字
最新大语言模型推理能力测试引发争议:DeepSeek R1频频“放弃”
近日,一篇关于最新大语言模型推理能力测试的研究论文引发热议。研究人员基于美国广播节目NPR周日谜题挑战(The Sunday Puzzle)构建了一个新的基准测试集,包含近600个难度适中、易于理解但不易解决的谜题,用于评估包括OpenAI o1、o3-mini、DeepSeek R1和Google Gemini Flash Thinking等顶尖模型的推理能力。
1. 新基准测试:难度适中,易于理解和验证
与现有基准测试使用大学级数学竞赛题或编程题不同,该研究选择难度适中的谜题,这些谜题只需要基本的英语知识和常识就能理解,答案也易于验证。例如,“想一个熟悉的五个字母、两个音节的单词。将中间字母改为字母表中该字母前面的字母,你将得到一个熟悉的五个字母、三个音节的单词。这个单词是什么?”(答案:alpha → aloha)。这种设计使得评估结果更易于理解和解释。
2. 测试结果:OpenAI o1表现最佳,DeepSeek R1频频“放弃”
测试结果显示,OpenAI o1表现最佳,准确率为59%;其次是o3-mini (47%) 和DeepSeek R1 (35%)。值得注意的是,DeepSeek R1在推理过程中经常“放弃”,表现出两种形式:一是给出与推理过程无关的答案;二是明知答案违反题设条件,仍给出答案。在595个测试问题中,DeepSeek R1在142个问题上明确“放弃”。此外,DeepSeek R1还存在“无限思考”的问题,经常无法在达到32768 token上下文输出限制前完成推理。
3. 模型“故障”模式:放弃、无限思考和异常不确定性
研究揭示了新的模型“故障”模式,例如DeepSeek R1的“放弃”行为和“无限思考”状态。 此外,模型还表现出异常的不确定性,可能会反复修改答案,或者在找到正确答案后仍继续探索其他可能性。研究人员发现,推理长度与准确率的关系并非线性正相关,在输出约10000个token后,继续推理对提升准确率的帮助不大。对于R1来说,在输出约3000 token时就开始超过Gemini Thinking的表现。
4. 网友热议:对“推理”定义的争议
这项研究在Hacker News上引发热烈讨论。一些网友质疑该研究是否真正考察了模型的“推理”能力,认为解决这些问题更依赖于对特定知识的记忆和检索,而非真正的逻辑推理。他们认为,如果问题是多项选择的,那么测试才更能体现推理能力。
5. 研究意义与未来方向
尽管存在争议,这项研究仍然具有重要的意义。它提供了一个新的基准测试集,可以更有效地评估大语言模型的推理能力,并揭示了一些新的模型“故障”模式。未来研究可以进一步探索如何改进模型的推理机制,例如,开发更有效的推理时机控制机制,以避免模型陷入“无限思考”状态,并提高模型的推理效率和准确性。
总而言之,这项研究为大语言模型的推理能力评估提供了新的视角和方法,也引发了对“推理”定义和模型评估方法的深入思考。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破