本期通讯22569字,可免费试读至6%。
原标题:从PPO到GRPO,DeepSeek-R1做对了什么?
文章来源:机器之心
内容字数:2800字
DeepSeek-R1与Kimi 1.5:强化学习新范式
本文总结了机器之心PRO会员通讯中关于DeepSeek-R1和Kimi 1.5两大模型的强化学习技术要点,重点关注其在推理能力提升方面的突破性进展。
1. DeepSeek-R1:GRPO算法的优势
DeepSeek-R1成功复现了o1的推理能力,其核心技术亮点在于采用GRPO算法替代了传统的PPO算法。这使得模型在减少计算资源消耗的同时,依然保持了强大的推理能力。
- GRPO与PPO的差异:PPO采用Actor-Critic架构,包含Actor(策略)、Critic(价值评估)、Reward(奖励)和Reference(参考)四个模型。Critic模型评估模型的总收益,类似教练的角色。而GRPO则去除了Critic模型,降低了训练成本。
- Rule-based Reward的应用:GRPO利用精心设计的Rule-based Reward替代了难以调试的Reward模型,直接对模型输出进行判别,简化了训练流程,提高了效率。
- GRPO的优势总结:GRPO算法通过去除Critic模型和采用Rule-based Reward,有效降低了训练成本,同时保持了模型的推理能力,实现了在纯强化学习环境下复现o1能力的目标。
2. Kimi 1.5:Mirror Descent与GRPO的殊途同归
与DeepSeek-R1同时发布的Kimi 1.5也展现了媲美o1的推理能力,虽然其采用了不同的Policy Optimization方法——online Mirror Descent,但与DeepSeek-R1在技术方案上存在惊人的相似之处。
- 技术方案的相似性:两者都采用了简洁的RL框架,避免了复杂的树搜索(如MCTS)和昂贵的PRM(概率路线图),都专注于精心设计的参考事实奖励机制。
- Rule-based Reward的共同点:两者都成功地应用了Rule-based Reward,证明了这种方法在强化学习中提升模型推理能力的有效性。
- GRPO与Mirror Descent的比较:虽然GRPO和Mirror Descent是不同的优化算法,但它们都通过简化RL框架,并巧妙地利用Rule-based Reward,最终实现了类似的效果,殊途同归。
3. Rule-based Reward的有效性
DeepSeek-R1和Kimi 1.5的成功都证明了Rule-based Reward的有效性。相比复杂的Reward模型,Rule-based Reward更易于设计和调试,同时能够有效引导模型学习,提升推理能力。这为未来的强化学习研究提供了新的方向。
总而言之,DeepSeek-R1和Kimi 1.5的出现标志着强化学习在大型语言模型推理能力提升方面取得了重大突破。GRPO和Mirror Descent等新算法的应用,以及Rule-based Reward的有效性,为未来大型语言模型的训练和优化提供了新的思路和方法。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...