共同一作为MSRA实习生、北大er
原标题:让Qwen2.5 7B超越o1,微软干的!MSRA推出小模型数学推理自我进化新方法
文章来源:智猩猩GenAI
内容字数:8751字
微软rStar-Math算法:赋能小模型数学推理能力
本文总结了微软亚洲研究院(MSRA)最新研发的rStar-Math算法,该算法显著提升了小语言模型(SLM)的数学推理能力,甚至在某些方面超越了大型模型。文章还预告了1月14日在北京举办的第四届全球自动驾驶峰会。
1. rStar-Math算法的核心创新
rStar-Math的核心在于通过蒙特卡洛树搜索(MCTS)和三项创新方法,让小模型在不依赖大型教师模型的情况下,通过多轮自我进化,掌握数学推理能力:
- 代码增强CoT数据合成方法:该方法利用MCTS生成具有自我注释的推理轨迹,并生成对应的Python代码进行验证,确保每一步推理的正确性,减少错误步骤。
- 过程奖励模型训练方法:通过引入过程偏好模型(PPM),可靠地为每个数学推理步骤预测奖励标签,即使Q值不精确也能有效区分正确和错误步骤。
- 四轮自我思维深度进化:通过四轮迭代,逐步生成更高质量的数据,并通过更具挑战性的数学问题扩展训练集,不断提升模型能力。
这三项创新有效解决了现有方法中高质量数据稀缺、训练过程容易出错等难题,使得小模型能够进行深度思考,并逐步提升数学推理能力。
2. 实验结果与发现
实验结果显示,rStar-Math显著提升了SLM的数学推理能力,在多个基准测试中取得了优异的成绩:
- 在MATH基准测试中,将Qwen2.5-Math-7B的准确率从58.8%提升到90.0%,Qwen2.5-Math-1.5B的准确率从51.2%提升到87.8%,均超越了OpenAI o1-preview。
- 在美国数学竞赛AIME 2024测试中,Qwen2.5-Math-7B的平均解题率达到53.3%,超过所有其他开源大模型,跻身最聪明高中生数学前20%。
- 在其他具有挑战性的数学基准测试(如College Math、奥赛基准、中国高考数学考试)中也表现出色,展现了其通用性。
实验结果验证了rStar-Math的有效性,也表明在固定计算预算下,小模型在某些推理问题上可以超越大型模型。
3. rStar-Math团队及论文信息
rStar-Math论文的共同一作分别来自微软亚洲研究院和北京大学、清华大学的实习生。论文已上传至arXiv,代码和数据也已公开发布在GitHub上。
4. 第四届全球自动驾驶峰会预告
文章最后预告了1月14日在北京举办的第四届全球自动驾驶峰会,峰会将涵盖自动驾驶领域的多个主题,包括端到端自动驾驶创新、城市NOA、自动驾驶视觉语言模型和自动驾驶世界模型等。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...