仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o

无需模仿,超越蒸馏

仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o

原标题:仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o
文章来源:量子位
内容字数:3519字

PRIME: 提升大模型推理能力的强化学习新方法

近日,清华大学、上海AI Lab等团队提出一种名为PRIME (Process Reinforcement through IMplicit REwards) 的强化学习新方法,成功训练出一个数学能力超越GPT-4o和Llama-3.1-70B的7B模型Eurus-2-7B-PRIME。该方法仅需少量资源(8张A100,约一万元,不到10天),便取得了显著成果,在AI社区引发热议。

1. 模仿学习的局限与强化学习的潜力

传统的基于模仿学习的大模型训练方法依赖大量高质量数据,而高质量数据往往稀缺,限制了模型推理能力的提升。OpenAI的o1和o3模型的成功案例证明了强化学习在提升大模型推理能力方面的巨大潜力,其可以使模型具备类似人类的快速迭代试错和深度思考能力。然而,强化学习也面临着如何获取精准且可扩展的密集奖励,以及如何设计高效利用奖励的算法两大挑战。

2. PRIME算法的核心思想:隐式过程奖励

PRIME算法巧妙地利用了“隐式过程奖励”的思想来克服上述挑战。它无需训练额外的价值模型,仅依靠答案的最终对错(输出奖励模型,ORM)数据进行训练,就能隐式地建模过程奖励。这种方法具有三大优势:

  1. 过程奖励:为每个token提供价值估计,无需额外训练价值模型。

  2. 可扩展性:只需结果标签即可在线更新PRM,有效缓解分布偏移和可扩展性问题。

  3. 简洁性:可以直接用初始策略模型初始化PRM,简化训练流程。

PRIME算法是一种在线强化学习算法,能够将每个token的过程奖励无缝应用于强化学习流程中。其流程图清晰地展示了算法的运作机制。

3. 实验结果与突破

实验结果显示,PRIME算法相比于仅用结果监督的方法,采样效率提升了2.5倍,在下游任务上也有显著提升。在线更新PRM的效果也显著优于固定不更新的PRM,验证了算法设计的合理性。基于Qwen2.5-Math-Instruct训练的EurusPRM模型,在Best-of-N采样中达到了开源领先水平。在AIME 2024考试中,Eurus-2-7B-PRIME的准确率达到26.7%,大幅超越GPT-4o、Llama-3.1-70B和Qwen2.5-Math-7B-Instruct,且仅使用了Qwen Math数据的1/10。强化学习方法PRIME为模型带来了16.7%的绝对提升。

4. 未来展望

PRIME算法的成功,证明了强化学习在提升大模型推理能力方面的巨大潜力。未来,基于PRIME方法和更强的基座模型,有潜力训练出接近OpenAI o1的模型。强化学习作为连接已有智能体和现实世界的桥梁,以及将世界反馈内化为模型智能的路径,将在下一代人工智能发展中发挥重要作用。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...