SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队黑盒

奖励函数很重要

SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒

原标题:SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队黑盒
文章来源:量子位
内容字数:4988字

揭秘大模型长链推理:从SFT到RL的探索

本文总结了清华、CMU和IN.AI研究团队关于大模型长链思维(Long Chain of Thought,Long CoT)推理机制和优化策略的研究成果。该研究旨在揭开大模型长CoT推理的神秘面纱,并提出增强和稳定其性能的实用策略。

1. 研究背景与方法

研究团队以Meta的Llama-3.1-8B和阿里通义的Llama-3.1-8B两个基础模型为实验对象,并选取了MATH-500、AIME 2024、TheoremQA和MMLU-Pro-1k四个代表性推理基准进行测试。研究从监督微调(SFT)和强化学习(RL)两个方面入手,探究长CoT的触发条件和优化策略。默认参数设置:温度t=0.7、顶部−p值=0.95,最大输出长度=16384 tokens。

2. SFT对长CoT的影响

研究发现,在长CoT数据上进行SFT能够提升模型学习复杂推理模式的能力,并显著提高模型性能上限,且具有比短CoT更高的性能拓展空间。实验表明,随着SFT token数量的增加,长CoT SFT的准确率持续提高,远超短CoT SFT的收益,后者很快达到饱和。

3. RL对长CoT的影响

研究团队将长CoT和短CoT视为RL的不同SFT初始化方法,并进行比较。结果显示,使用长CoT SFT初始化的模型能通过RL获得显著改进,而短CoT SFT模型的收益很小。为了稳定CoT长度增长,研究团队引入了带有重复惩罚的余弦长度缩放奖励机制,有效地平衡了推理深度并防止了无意义的长度增加。

4. 长CoT数据整理方法

研究比较了两种整理长CoT数据的方法:一种是通过提示短CoT模型生成原始动作并组合;另一种是从现有长CoT模型中提炼。结果显示,后者泛化性能更好,且可通过RL进一步改进。

5. 基模型的内在能力与RL

研究发现,基模型天生具备错误修正和回溯等技能,但通过RL有效激励这些技能需要大量的计算。实验表明,RL虽然能显著提高准确性,但不一定能有效激励基模型中存在的反射模式,如“recheck”、“retry”和“alternatively”。

6. 四个关键发现

研究总结了四个关键发现:

  1. SFT并非必需,但能简化训练并提高效率。
  2. 推理能力随着训练计算的增加而出现,但并非总是如此,需要奖励塑造等技巧。
  3. 可验证奖励函数对CoT扩展至关重要。
  4. 基模型天生存在错误修正等技能,但通过RL有效激励需要大量计算。

7. 未来研究方向

未来研究方向包括扩大模型规模、改进RL基础设施、探索更有效的验证信号以及深入分析基础模型中的潜在能力。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...