让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞

​o3 的低成本开源复现?

让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞

原标题:让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞
文章来源:机器之心
内容字数:7761字

微软亚洲研究院力作:rStar-Math,小模型也能征服数学推理

近日,一篇登顶Hugging Face热门榜一的论文引发广泛关注,它展示了小模型在数学推理领域的巨大潜力。来自微软亚洲研究院的研究团队提出的rStar-Math,仅需60块A100显卡,就让1.5B到7B规模的小型语言模型(SLM)在数学推理能力上媲美甚至超越了OpenAI的o1。

  1. rStar-Math的核心突破:自我进化与深度思考

    rStar-Math的核心在于其创新的自我进化机制和System 2深度思考方法。通过四轮自我进化,吸纳了747k数学问题合成的数百万数据,它显著提升了SLM的数学推理能力。其“深度思考”能力通过蒙特卡洛树搜索(MCTS)实现,将数学问题求解分解为多步生成,并通过奖励模型的指导进行搜索推理,最终实现高准确率的解答。

  2. 技术细节:代码增强CoT数据合成和过程奖励模型

    为了提高数据质量和训练效率,rStar-Math引入了三项关键创新:1. 代码增强CoT数据合成方法,通过MCTS生成经过验证的逐步推理轨迹;2. 改进的过程奖励模型训练方法,避免了简单的步级分数标注,提升了评估效果;3. 完全自主训练方案,从零开始构建并训练模型,持续迭代优化。

  3. 令人瞩目的实验结果:超越OpenAI o1,挑战AIME

    在MATH基准测试上,rStar-Math将Qwen2.5-Math-7B的成绩从58.8%提升到90.0%,将Phi3-mini-3.8B的正确率从41.4%提升到86.4%,均超过了o1-preview。在模拟美国数学奥林匹克(AIME)考试中,它能正确解答15道题中的8道,成绩足以跻身最优秀高中数学竞赛生前20%。

  4. 意外发现:模型展现出自我反思能力

    实验中,研究人员意外发现MCTS驱动的深度思考展现出自我反思能力。模型能够识别并纠正自身错误,这在开源LLM中是罕见的突破。这种自反思能力并非专门训练而来,表明高级System 2推理能够自然培养出内在的自省能力。

  5. 成本优势与未来展望:开源o3的可能性

    rStar-Math的成功在于其低成本高性能。仅需60块A100显卡,就实现了与o1相当甚至超越的性能,这为创业公司和研究者提供了巨大的机会。Keras创始人François Chollet甚至预言2025年将是开源o3复刻之年。

总而言之,rStar-Math的出现标志着小模型在数学推理领域取得了重大突破,为降低大模型应用成本,推动AI技术发展提供了新的方向。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...