7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火

AIGC动态1个月前发布 新智元
3 0 0

7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火

原标题:7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火
文章来源:新智元
内容字数:8194字

微软小模型在数学推理上超越OpenAI o1:rStar-Math算法详解

近日,微软亚研院全华人团队提出了一种名为rStar-Math的新算法,使小语言模型(SLM)在数学推理能力上取得突破性进展,甚至超越了OpenAI的o1模型,引发AI社区广泛关注。该研究成果发表在arXiv上,论文链接为:https://arxiv.org/pdf/2501.04519。

  1. rStar-Math的核心思想:深度思考

    rStar-Math的核心在于赋予小模型“深度思考”的能力。该算法借鉴了AlphaGo中的蒙特卡洛树搜索(MCTS)技术,设计了一个由两个协同工作的SLM组成的系统:一个数学策略小语言模型(SLM)和一个过程奖励模型(PRM)。通过MCTS,系统可以探索多种解题路径,并选择最优解。

  2. 三大技术创新

    rStar-Math包含三大技术创新:

    1. 全新代码增强CoT数据合成方法:将数学问题求解分解为MCTS中的多步骤生成,通过验证Python代码的执行结果来确保中间步骤的正确性,并根据步骤贡献自动分配Q值,提高数据质量。
    2. 全新PRM训练方法:利用MCTS生成的Q值构建偏好对,使用成对排名损失来训练PRM,避免了直接使用Q值作为奖励标签带来的噪声和不精确。
    3. 自我进化方案:通过四轮迭代,逐步提升策略模型和PRM的性能,并生成更高质量的训练数据,最终解决更多高难度的数学问题。
  3. 自我进化过程详解

    rStar-Math的自我进化过程包含四轮:第一轮引导训练初始策略模型;第二轮训练可靠的PRM;第三轮利用PRM增强MCTS生成更高质量数据;第四轮解决高难度数学问题,提升训练集覆盖率。每一轮都迭代改进策略模型、PRM和训练数据。

  4. 实验结果与分析

    rStar-Math在多个数学基准测试中取得了显著成果,包括MATH、GSM8K和AIME,其性能甚至超过了o1-preview,并在美国数学奥林匹克(AIME)中取得了53.3%的亮眼成绩。实验结果显示,rStar-Math显著提升了SLM的数学推理能力,并展现出强大的泛化能力。

  5. 关键发现:内在自我反思能力

    研究人员意外地发现,MCTS驱动的深度思考过程中,模型展现出内在的自我反思能力,能够识别并纠正错误的步骤,这在之前的开源大语言模型中并不常见。

  6. 结论

    rStar-Math通过巧妙地结合MCTS、代码增强CoT数据合成和自我进化方案,显著提升了小模型的数学推理能力,为未来的AI发展提供了新的方向。该研究表明,即使是小模型,也能在特定任务上达到甚至超越大型模型的性能,为构建更强大、更高效的AI系统提供了新的思路。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...