仅靠逻辑题，AI数学竞赛能力飙升！微软、九坤投资：7B小模型也能逼近o3-mini

AIGC动态1年前 (2025)发布机器之心

在完全未见过的美国数学奥林匹克（AIME）测试中，该模型的推理性能提升了125%！

原标题：仅靠逻辑题，AI数学竞赛能力飙升！微软、九坤投资：7B小模型也能逼近o3-mini
文章来源：机器之心
内容字数：6931字

DeepSeek R1：仅用5000条合成数据，大幅提升AI数学竞赛水平

机器之心AIxiv专栏报道了微软亚洲研究院、九坤投资和研究员合作完成的一项最新研究，该研究揭秘了DeepSeek R1模型如何通过低成本强化学习，在逻辑推理测试中取得显著突破。该研究论文题为《Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning》，已发布在arXiv上。

1. 研究目标及方法

该研究旨在探究强化学习在提升大型语言模型 (LLM) 逻辑推理能力中的有效性，并解答一系列关键问题，例如：最佳强化学习算法选择、冷启动与基于基础模型启动的差异、模型输出长度与推理能力的关系、特定词汇与推理能力的关联，以及强化学习与监督微调的优劣比较等。

研究团队采用完全由程序合成的逻辑谜题作为训练数据，这些谜题具有难度可控、答案明确等优点，有效避免了自然语言任务中常见的模糊性。他们设计了一个基于规则的奖励系统，几乎杜绝了模型作弊行为，并通过 REINFORCE++ 算法进行训练。

2. 关键发现

研究发现，仅需5000条合成逻辑谜题，7B参数规模的小模型就能在逻辑推理测试中超越OpenAI o1，逼近o3-mini-high的性能。在未见过的美国数学奥林匹克（AIME）测试中，推理性能提升了125%。

一些有趣的发现包括：

词汇与推理能力： 诸如“verify”、“check”等反思性词汇的出现与推理性能提升相关，但并非所有此类词汇都具有积极作用。“recheck”反而可能表明模型犹豫不决，增加错误概率。
语言混杂： 中英夹杂会降低模型性能，建议在奖励系统中加入语言一致性惩罚。
“顿悟时刻”： 研究并未发现模型训练过程中存在突如其来的“Aha moment”，与反思相关的词汇在训练初期就已经出现，只是频率较低。
强化学习vs.监督微调： 强化学习在不依赖数据结构的情况下，以极低的数据代价实现了高效进化，展现出强大的泛化性，优于监督微调。
输出长度与性能： 模型输出长度的增加并不一定代表推理性能的提升，过长的输出反而可能导致“过度思考”和错误。

3. 代码和数据开源

该团队完整开源了全流程代码、参数设置、训练数据和设计经验，为后续研究提供了宝贵的参考。

4. 结论

这项研究证明了强化学习在提升LLM逻辑推理能力方面的巨大潜力，并为未来研究提供了诸多有价值的经验和启示。其低成本、高效率的训练方法，为AI在数学及其他逻辑推理领域的应用开辟了新的道路。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # 7B参数模型 # AI数学竞赛 # 九坤投资 # 小模型性能提升 # 逻辑推理AI

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

仅靠逻辑题，AI数学竞赛能力飙升！微软、九坤投资：7B小模型也能逼近o3-mini

在完全未见过的美国数学奥林匹克（AIME）测试中，该模型的推理性能提升了125%！

DeepSeek R1：仅用5000条合成数据，大幅提升AI数学竞赛水平

1. 研究目标及方法

2. 关键发现

3. 代码和数据开源

4. 结论

联系作者

2025 WAIC 云帆奖开启全球报名：集青年之智共铸 AGI 未来

中文比R1丝滑、玩宝可梦还贼溜？全球首个混合推理模型Claude 3.7 Sonnet太惊艳，网友直呼“孤独求败”！

相关文章

暂无评论