在完全未见过的美国数学奥林匹克(AIME)测试中,该模型的推理性能提升了125%!
原标题:仅靠逻辑题,AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini
文章来源:机器之心
内容字数:6931字
DeepSeek R1:仅用5000条合成数据,大幅提升AI数学竞赛水平
机器之心AIxiv专栏报道了微软亚洲研究院、九坤投资和研究员合作完成的一项最新研究,该研究揭秘了DeepSeek R1模型如何通过低成本强化学习,在逻辑推理测试中取得显著突破。该研究论文题为《Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning》,已发布在arXiv上。
1. 研究目标及方法
该研究旨在探究强化学习在提升大型语言模型 (LLM) 逻辑推理能力中的有效性,并解答一系列关键问题,例如:最佳强化学习算法选择、冷启动与基于基础模型启动的差异、模型输出长度与推理能力的关系、特定词汇与推理能力的关联,以及强化学习与监督微调的优劣比较等。
研究团队采用完全由程序合成的逻辑谜题作为训练数据,这些谜题具有难度可控、答案明确等优点,有效避免了自然语言任务中常见的模糊性。他们设计了一个基于规则的奖励系统,几乎杜绝了模型作弊行为,并通过 REINFORCE++ 算法进行训练。
2. 关键发现
研究发现,仅需5000条合成逻辑谜题,7B参数规模的小模型就能在逻辑推理测试中超越OpenAI o1,逼近o3-mini-high的性能。在未见过的美国数学奥林匹克(AIME)测试中,推理性能提升了125%。
一些有趣的发现包括:
- 词汇与推理能力: 诸如“verify”、“check”等反思性词汇的出现与推理性能提升相关,但并非所有此类词汇都具有积极作用。“recheck”反而可能表明模型犹豫不决,增加错误概率。
- 语言混杂: 中英夹杂会降低模型性能,建议在奖励系统中加入语言一致性惩罚。
- “顿悟时刻”: 研究并未发现模型训练过程中存在突如其来的“Aha moment”,与反思相关的词汇在训练初期就已经出现,只是频率较低。
- 强化学习vs.监督微调: 强化学习在不依赖数据结构的情况下,以极低的数据代价实现了高效进化,展现出强大的泛化性,优于监督微调。
- 输出长度与性能: 模型输出长度的增加并不一定代表推理性能的提升,过长的输出反而可能导致“过度思考”和错误。
3. 代码和数据开源
该团队完整开源了全流程代码、参数设置、训练数据和设计经验,为后续研究提供了宝贵的参考。
4. 结论
这项研究证明了强化学习在提升LLM逻辑推理能力方面的巨大潜力,并为未来研究提供了诸多有价值的经验和启示。其低成本、高效率的训练方法,为AI在数学及其他逻辑推理领域的应用开辟了新的道路。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台