关于R1的论文发表一些看法~
原标题:看DeepSeek R1的论文时,我突然想起了AlphaGo
文章来源:智猩猩GenAI
内容字数:4085字
R1论文解读:一种简洁优雅的基于规则奖励的强化学习方法
本文对真中发表在知乎的R1论文解读进行总结,该论文提出了一种简洁优雅的基于规则奖励的强化学习方法,用于提升大模型的推理能力。
1. 基于规则的奖励模型设计
R1论文的核心亮点在于其基于规则的奖励模型设计。作者拒绝使用基于模型的奖励模型(PRM)和基于模型的优化目标(ORM),原因如下:
在一般推理中,明确界定细粒度的推理步骤比较困难。
判断当前推理中间步骤是否正确非常困难,模型自动标注效果差强人意,人工标注难以扩展。
PRM容易导致奖励劫持问题,动态重训奖励模型资源开销大。
作者认为,虽然目前有很多方法可以提升PRM的可扩展性,但仍然存在幻觉问题,不如人工标注或LLM评判准确。因此,R1直接抛弃了基于模型的奖励模型,体现了其魄力,也避免了奖励劫持的风险。
2. 模型训练的多阶段策略
R1采用多阶段训练策略:
R1 Zero阶段:利用基础模型+提示词+基于规则的奖励,直接进行基于梯度反向传播的强化学习(GRPO),目标是提升做题准确率。此阶段模型输出不断变长,开始学会反思,但推理过程难以理解。
R1阶段:利用R1 Zero生成的数据进行强化学习,筛选出推理过程正常的样本,并混合一些非推理数据,对基础模型进行监督微调(SFT),再进行强化学习,最终得到R1模型。
作者认为,这种方法能够直接在基础模型上进行强化学习,是因为当前的大模型预训练已经包含了SFT数据,模型越贴近预训练,幻觉越少。模型在强化学习过程中自然产生反思,这可能是因为输出变长后,模型会利用剩余的“额度”去检查答案。作者指出,模型能力的“涌现”依赖于训练数据的类型,强化学习能够采样出特定类型的响应,是值得进一步研究的课题。
此外,论文使用了GRPO和K3 KL估计,避免了传统KL loss的蒙特卡洛估计低效问题。
3. 与AlphaGo的联系
作者将R1的训练过程与AlphaGo到AlphaZero的演进过程进行了对比。AlphaGo先用模仿学习+强化学习训练,再通过自我博弈产生AlphaZero。而R1则相反,先用强化学习训练出R1 Zero,再利用其数据进行SFT+RL,最终得到R1。作者推测,DeepSeek可能先训练了一个SFT+RL模型,再训练出Zero,最后利用Zero数据训练出最终模型。
R1中GRPO多次采样的做法也类似于AlphaGo的蒙特卡洛树搜索(MCTS),但DeepSeek的探索最终失败了。
4. 总结与展望
R1论文提出了一种简洁优雅的基于规则奖励的强化学习方法,为提升大模型推理能力提供了新的方向。作者最后提出一个疑问:这种方法能否在100B甚至更小的模型上奏效?这将是未来研究的重要方向。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下账号,专注于生成式人工智能,主要分享技术文章、论文成果与产品信息。