自我反思(尤其是肤浅的)有时对模型性能的助益不大。
原标题:华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」
文章来源:机器之心
内容字数:6893字
DeepSeek-R1-Zero“顿悟时刻”再研究:并非RL训练的专属
近期,研究者对DeepSeek-R1-Zero模型的“顿悟时刻”(模型展现自我反思能力,从而提升复杂推理能力)进行了深入研究,了先前的一些结论。
Epoch 0 的“顿悟”:自我反思并非RL独有
研究发现,所谓的“顿悟时刻”并非强化学习(RL)训练的专属产物。在多个基础模型(Qwen-2.5、DeepSeek-Math等)中,即使在Epoch 0(即基础模型阶段),也已经存在自我反思的模式。这些模型在没有任何RL训练的情况下,就能通过关键词(例如“让我检查一下”、“等等”)表现出自我反思行为。温度参数越高,这种现象越明显。 Qwen2.5系列模型表现尤为突出,这或许解释了为何许多开源的R1-Zero复现都基于该模型。
肤浅的自我反思 (SSR):并非所有反思都有效
研究者发现,基础模型中存在的自我反思并非总是有效的。许多自我反思是“肤浅的”(SSR),即模型进行自我检查,但并没有带来最终答案的改进,甚至可能引入错误。研究通过案例分析展示了四种自我反思模式,其中两种属于SSR,导致最终答案不正确。分析表明,在基础模型中,错误答案现自我反思关键词的频率甚至高于正确答案。
响应长度增加的:RL优化而非“顿悟”
先前认为响应长度的增加是“顿悟时刻”的标志,但研究表明,这可能是RL优化策略的结果。通过在倒计时任务和数学问题上进行实验,研究者发现,RL训练初期,模型为了在token预算内得到奖励,会压缩响应长度。随后,为了获得更高的奖励,模型会增加重试次数,从而导致响应长度增加。这并非由于“顿悟”导致的自我反思能力提升,而是RL算法优化奖励函数的结果。
输出长度与自我反思:并非线性关系
研究者通过实验发现,模型的输出长度与自我反思关键词的数量并不存在单调关系。这表明,单纯依靠输出长度来判断模型是否产生了有效的自我反思是不够准确的。
总而言之,这项研究对DeepSeek-R1-Zero模型的“顿悟时刻”进行了重新解读,指出先前的一些结论可能过于乐观。 自我反思能力在基础模型中就已经存在,RL训练的作用可能是将肤浅的自我反思转化为有效的自我反思,从而提升模型的推理能力。 响应长度的增加并非“顿悟”的直接标志,而是RL优化策略的体现。 未来研究需要更深入地探索模型的自我反思机制,以及如何有效地引导模型进行有效的自我反思。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台