不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限

基于结果奖励的强化学习新范式

不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限

原标题:不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
文章来源:量子位
内容字数:4875字

上海AI Lab突破数学推理瓶颈:强化学习超越蒸馏,无需超大模型

上海AI Lab近日取得重大突破,其基于结果奖励的强化学习新范式OREAL,在数学推理任务中超越了DeepSeek-R1等超大模型的性能。这项研究颠覆了传统依赖于蒸馏超大模型的范式,仅通过微调和基于结果反馈的强化学习,便在7B和32B模型上取得了令人瞩目的成果。

1. 挑战“三重门”:数学推理的困境

当前大模型数学推理面临“三重门”困境:稀疏奖励困境(仅有最终答案的二元反馈)、局部正确陷阱(部分正确步骤可能误导模型)以及规模依赖魔咒(依赖超大模型蒸馏)。

2. OREAL:重新定义结果奖励强化学习

为了解决这些难题,上海AI Lab团队重新设计了结果奖励强化学习算法OREAL。该算法的核心在于对正负样本和长序列的处理策略:

  1. 正样本:利用最佳轨迹采样(BoN)的行为克隆,学习最优策略。

  2. 负样本:采用奖励重塑,维护策略优化目标的一致性,避免梯度偏差。

  3. 长序列:设计token重要性估计器,构建序列累计形式的奖励函数,实现更细粒度的奖励分配,精确定位核心错误步骤。

OREAL的策略可以概括为:在正确样本上模仿学习,在错误样本上偏好学习,对关键步骤做重点学习。

3. 实验结果:超越DeepSeek-R1及其他模型

在7B和32B模型上,OREAL仅使用4000条高质量训练样本,便取得了显著成果:Oreal-7B在MATH-500上达到91.0的pass@1准确率,超越了QWQ-32B-Preview和OpenAI-O1-Mini;Oreal-32B在MATH-500上达到95.0的分数,超越了DeepSeek-r1-Distill-Qwen-32B。将OREAL应用于DeepSeek-r1-Distill-Qwen-7B后,更是创下了7B模型的新记录(94.0 pass@1精度)。

4. 起点模型和数据的重要性

研究团队还发现,起点模型和训练数据对最终模型效果至关重要。起点模型越强,RL后的性能越好。高质量的数据集能够让模型充分发挥其潜力。因此,团队开源了RL训练的数据、起点和最终模型,以促进社区的公平比较和进一步研究。

5. 结论与未来展望

OREAL的成功证明了基于结果奖励的强化学习在数学推理任务中的巨大潜力,它摆脱了对超大模型蒸馏的依赖,为降低大模型训练成本提供了新的思路。然而,训练数据的质量、难度和数量仍然是影响RL性能的关键因素,这为未来的研究留下了空间。

项目链接:https://github.com/InternLM/OREAL

论文地址:https://arxiv.org/abs/2502.06781

RL 训练数据链接:https://huggingface.co/datasets/internlm/OREAL-RL-Prompts

系列模型地址:https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...