奖励函数很重要
原标题:SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队黑盒
文章来源:量子位
内容字数:4988字
揭秘大模型长链推理:从SFT到RL的探索
本文总结了清华、CMU和IN.AI研究团队关于大模型长链思维(Long Chain of Thought,Long CoT)推理机制和优化策略的研究成果。该研究旨在揭开大模型长CoT推理的神秘面纱,并提出增强和稳定其性能的实用策略。
1. 研究背景与方法
研究团队以Meta的Llama-3.1-8B和阿里通义的Llama-3.1-8B两个基础模型为实验对象,并选取了MATH-500、AIME 2024、TheoremQA和MMLU-Pro-1k四个代表性推理基准进行测试。研究从监督微调(SFT)和强化学习(RL)两个方面入手,探究长CoT的触发条件和优化策略。默认参数设置:温度t=0.7、顶部−p值=0.95,最大输出长度=16384 tokens。
2. SFT对长CoT的影响
研究发现,在长CoT数据上进行SFT能够提升模型学习复杂推理模式的能力,并显著提高模型性能上限,且具有比短CoT更高的性能拓展空间。实验表明,随着SFT token数量的增加,长CoT SFT的准确率持续提高,远超短CoT SFT的收益,后者很快达到饱和。
3. RL对长CoT的影响
研究团队将长CoT和短CoT视为RL的不同SFT初始化方法,并进行比较。结果显示,使用长CoT SFT初始化的模型能通过RL获得显著改进,而短CoT SFT模型的收益很小。为了稳定CoT长度增长,研究团队引入了带有重复惩罚的余弦长度缩放奖励机制,有效地平衡了推理深度并防止了无意义的长度增加。
4. 长CoT数据整理方法
研究比较了两种整理长CoT数据的方法:一种是通过提示短CoT模型生成原始动作并组合;另一种是从现有长CoT模型中提炼。结果显示,后者泛化性能更好,且可通过RL进一步改进。
5. 基模型的内在能力与RL
研究发现,基模型天生具备错误修正和回溯等技能,但通过RL有效激励这些技能需要大量的计算。实验表明,RL虽然能显著提高准确性,但不一定能有效激励基模型中存在的反射模式,如“recheck”、“retry”和“alternatively”。
6. 四个关键发现
研究总结了四个关键发现:
- SFT并非必需,但能简化训练并提高效率。
- 推理能力随着训练计算的增加而出现,但并非总是如此,需要奖励塑造等技巧。
- 可验证奖励函数对CoT扩展至关重要。
- 基模型天生存在错误修正等技能,但通过RL有效激励需要大量计算。
7. 未来研究方向
未来研究方向包括扩大模型规模、改进RL基础设施、探索更有效的验证信号以及深入分析基础模型中的潜在能力。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破