OpenAI o1 和 o3 模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力,在基于模仿学习的 Scaling Law 逐渐受到质疑的今天,基于探索的强化学习有望带来新的 Scaling Law.
原标题:仅用 8 张显卡和一万块钱,清华团队用7B模型打败GPT-4o数学推理
文章来源:AI前线
内容字数:4107字
清华大合OpenBMB社区提出PRIME算法,低成本高效提升大模型数学推理能力
本文总结了清华大学NLP实验室联合上海AI Lab等机构提出的PRIME (Process Reinforcement through IMplicit REwards) 算法及其应用成果。该算法通过结合隐式过程奖励的强化学习方法,显著提升了大模型的数学推理能力,并在成本和效率方面取得突破。
1. 模仿学习的局限与强化学习的潜力
传统的基于模仿学习的大模型训练方法依赖于高质量的大规模数据,而高质量数据往往稀缺且昂贵。OpenAI的o1和o3模型的成功案例表明,强化学习方法有潜力克服模仿学习的局限,并带来新的Scaling Law。
2. PRIME算法的核心思想与优势
PRIME算法的核心在于利用隐式过程奖励模型 (PRM)。PRM 仅需最终结果的正确与否进行训练,即可隐式地建模过程奖励,从而避免了显式设计奖励函数的困难。这带来了三大优势:
- 过程奖励: PRM 为每个token提供价值估计,无需额外训练价值模型。
- 可扩展性: PRM 可在线更新,有效缓解分布偏移和可扩展性问题。
- 简洁性: PRM 可直接用初始策略模型初始化,易于使用和扩展。
3. Eurus-2-7B-PRIME模型的突出表现
研究人员利用Qwen2.5-Math-7B-Base作为基座模型,采用PRIME算法训练出Eurus-2-7B-PRIME模型。该模型在AIME 2024(美国IMO选拔考试)上的准确率达到26.7%,大幅超越GPT-4o、Llama-3.1-70B和Qwen2.5-Math-7B-Instruct,且仅使用了Qwen Math数据的1/10。强化学习方法PRIME为模型带来了16.7%的绝对提升。
4. 低成本高效的训练过程
值得注意的是,Eurus-2-7B-PRIME模型的训练仅使用了8张A100显卡,花费约一万人民币,不到10天时间就完成了训练,展现了PRIME算法的高效性与低成本优势。
5. 开源项目的影响与未来展望
该项目开源后在海外AI社区引起广泛关注,GitHub获得400+ star。未来,基于PRIME方法和更强的基座模型,有潜力训练出接近OpenAI o1水平的模型。
6. 强化学习的未来发展方向
文章最后指出,强化学习是连接大模型与现实世界的重要桥梁,将对下一代人工智能发展起到重要作用。PRIME算法的成功,为解决大模型强化学习中的奖励稀疏问题提供了一种新的思路,有望进一步提升大模型的复杂推理能力。
联系作者
文章来源:AI前线
作者微信:
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。