SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队黑盒

奖励函数很重要

SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队破解黑盒

原标题：SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队黑盒
文章来源：量子位
内容字数：4988字

揭秘大模型长链推理：从SFT到RL的探索

本文总结了清华、CMU和IN.AI研究团队关于大模型长链思维（Long Chain of Thought，Long CoT）推理机制和优化策略的研究成果。该研究旨在揭开大模型长CoT推理的神秘面纱，并提出增强和稳定其性能的实用策略。

1. 研究背景与方法

研究团队以Meta的Llama-3.1-8B和阿里通义的Llama-3.1-8B两个基础模型为实验对象，并选取了MATH-500、AIME 2024、TheoremQA和MMLU-Pro-1k四个代表性推理基准进行测试。研究从监督微调(SFT)和强化学习(RL)两个方面入手，探究长CoT的触发条件和优化策略。默认参数设置：温度t=0.7、顶部−p值=0.95，最大输出长度=16384 tokens。

2. SFT对长CoT的影响

研究发现，在长CoT数据上进行SFT能够提升模型学习复杂推理模式的能力，并显著提高模型性能上限，且具有比短CoT更高的性能拓展空间。实验表明，随着SFT token数量的增加，长CoT SFT的准确率持续提高，远超短CoT SFT的收益，后者很快达到饱和。

3. RL对长CoT的影响

研究团队将长CoT和短CoT视为RL的不同SFT初始化方法，并进行比较。结果显示，使用长CoT SFT初始化的模型能通过RL获得显著改进，而短CoT SFT模型的收益很小。为了稳定CoT长度增长，研究团队引入了带有重复惩罚的余弦长度缩放奖励机制，有效地平衡了推理深度并防止了无意义的长度增加。

4. 长CoT数据整理方法

研究比较了两种整理长CoT数据的方法：一种是通过提示短CoT模型生成原始动作并组合；另一种是从现有长CoT模型中提炼。结果显示，后者泛化性能更好，且可通过RL进一步改进。

5. 基模型的内在能力与RL

研究发现，基模型天生具备错误修正和回溯等技能，但通过RL有效激励这些技能需要大量的计算。实验表明，RL虽然能显著提高准确性，但不一定能有效激励基模型中存在的反射模式，如“recheck”、“retry”和“alternatively”。

6. 四个关键发现

研究总结了四个关键发现：

SFT并非必需，但能简化训练并提高效率。
推理能力随着训练计算的增加而出现，但并非总是如此，需要奖励塑造等技巧。
可验证奖励函数对CoT扩展至关重要。
基模型天生存在错误修正等技能，但通过RL有效激励需要大量计算。

7. 未来研究方向

未来研究方向包括扩大模型规模、改进RL基础设施、探索更有效的验证信号以及深入分析基础模型中的潜在能力。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # SFT替代 # 少样本学习 # 强化学习 # 长思维链 # 黑盒推理

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队黑盒

奖励函数很重要

揭秘大模型长链推理：从SFT到RL的探索

1. 研究背景与方法

2. SFT对长CoT的影响

3. RL对长CoT的影响

4. 长CoT数据整理方法

5. 基模型的内在能力与RL

6. 四个关键发现

7. 未来研究方向

联系作者

OPPO 新机将接入 DeepSeek-R1/《哪吒 2》进入全球动画电影票房榜前十/平台回应封禁汪小菲张兰等账号

《哪吒 2》打破影史纪录，奇迹还是必然？

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点