从字节ReFT到DeepSeek R1，聊聊推理模型Reasoning Model的精巧实现

Reasoning Model，RL is all your need ！！！

原标题：从字节ReFT到DeepSeek R1，聊聊推理模型Reasoning Model的精巧实现
文章来源：智猩猩GenAI
内容字数：22978字

国产Reasoning Model复现：精巧简洁的RL方案

本文总结了三篇关于Reasoning Model（推理模型）的优秀工作：字节的ReFT、Kimi的K1.5和DeepSeek的R1，它们的核心方法惊人地一致：在Post-Training阶段通过强化学习（RL）来提升模型的推理能力。这展现了国产模型在复现OpenAI等公司成果上的精巧和简洁。

1. 早期猜想与局限性

文章首先回顾了对OpenAI等公司Reasoning Model早期技术的猜想，主要集中在PRM（过程监督奖励模型）和MCTS（蒙特卡洛树搜索）方法。PRM通过分步骤打分来提供更精细的监督信号，MCTS则通过树搜索来探索解空间。然而，PRM需要定义精细的执行步骤，且对数据质量要求高；MCTS则面临搜索空间的问题，节点空间定义也十分困难。这些局限性导致实际复现中很少采用这些方法。

2. 三篇核心工作的比较

文章重点介绍了ReFT、K1.5和R1这三篇工作的核心思路。它们都采用了RL，但在具体实现上各有侧重：

2.1 ReFT: 简化PPO的RL方案

ReFT采用PPO算法，但简化了Reward Model，使用Rule-Base RM（基于规则的奖励模型）来判断答案正确性，并通过参数共享来降低Critic Model的计算复杂度。此外，ReFT还对比了两种Self-Training方法，展现了RL方案的优势。

2.2 Kimi K1.5: 精细化的RL和采样策略

Kimi K1.5在预训练和监督微调后，采用了一种简化的类Policy Gradient方法进行RL训练，避免了Critic Model的计算。其Reward Model设计精细，针对不同问题和训练阶段有不同的策略。此外，Kimi还采用了课程采样和优先采样策略来提高训练效率。

2.3 DeepSeek R1: 激进的纯RL与多阶段优化

DeepSeek R1首先进行了激进的纯RL实验（R1-Zero），但模型存在可读性差等问题。因此，R1在R1-Zero基础上，进行了多阶段优化，包括SFT、RL、增强SFT和增强RL，最终提升了模型的通用性和推理能力。DeepSeek也使用了Rule-Based Reward Model，并增加了语言一致性奖励。

3. 总结

文章总结指出，这三篇工作都通过RL在Post-Training阶段有效提升了模型的推理能力，展现了国产模型在Reasoning Model复现上的成就。其方法精巧简洁，通过清晰的目标设定和对RL的巧妙运用，实现了对复杂问题推理能力的有效提升。最终，文章以“Reasoning Model，RL is all you need”来概括其核心思想。

联系作者

文章来源：智猩猩GenAI
作者微信：
作者简介：智猩猩旗下账号，专注于生成式人工智能，主要分享技术文章、论文成果与产品信息。

阅读原文

# AIGC动态 # DeepSeekR1 # 字节ReFT # 推理模型 # 精巧实现 # 长尾关键字

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

从字节ReFT到DeepSeek R1，聊聊推理模型Reasoning Model的精巧实现

Reasoning Model，RL is all your need ！！！

国产Reasoning Model复现：精巧简洁的RL方案

1. 早期猜想与局限性

2. 三篇核心工作的比较

2.1 ReFT: 简化PPO的RL方案

2.2 Kimi K1.5: 精细化的RL和采样策略

2.3 DeepSeek R1: 激进的纯RL与多阶段优化

3. 总结

联系作者

DeepSeek R1 之后，提示词技巧的变与不变

今年春节，到处都是AI机器人

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点