仅靠逻辑题,AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini

在完全未见过的美国数学奥林匹克(AIME)测试中,该模型的推理性能提升了125%!

仅靠逻辑题,AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini

原标题:仅靠逻辑题,AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini
文章来源:机器之心
内容字数:6931字

DeepSeek R1:仅用5000条合成数据,大幅提升AI数学竞赛水平

机器之心AIxiv专栏报道了微软亚洲研究院、九坤投资和研究员合作完成的一项最新研究,该研究揭秘了DeepSeek R1模型如何通过低成本强化学习,在逻辑推理测试中取得显著突破。该研究论文题为《Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning》,已发布在arXiv上。

1. 研究目标及方法

该研究旨在探究强化学习在提升大型语言模型 (LLM) 逻辑推理能力中的有效性,并解答一系列关键问题,例如:最佳强化学习算法选择、冷启动与基于基础模型启动的差异、模型输出长度与推理能力的关系、特定词汇与推理能力的关联,以及强化学习与监督微调的优劣比较等。

研究团队采用完全由程序合成的逻辑谜题作为训练数据,这些谜题具有难度可控、答案明确等优点,有效避免了自然语言任务中常见的模糊性。他们设计了一个基于规则的奖励系统,几乎杜绝了模型作弊行为,并通过 REINFORCE++ 算法进行训练。

2. 关键发现

研究发现,仅需5000条合成逻辑谜题,7B参数规模的小模型就能在逻辑推理测试中超越OpenAI o1,逼近o3-mini-high的性能。在未见过的美国数学奥林匹克(AIME)测试中,推理性能提升了125%。

一些有趣的发现包括:

  1. 词汇与推理能力: 诸如“verify”、“check”等反思性词汇的出现与推理性能提升相关,但并非所有此类词汇都具有积极作用。“recheck”反而可能表明模型犹豫不决,增加错误概率。
  2. 语言混杂: 中英夹杂会降低模型性能,建议在奖励系统中加入语言一致性惩罚。
  3. “顿悟时刻”: 研究并未发现模型训练过程中存在突如其来的“Aha moment”,与反思相关的词汇在训练初期就已经出现,只是频率较低。
  4. 强化学习vs.监督微调: 强化学习在不依赖数据结构的情况下,以极低的数据代价实现了高效进化,展现出强大的泛化性,优于监督微调。
  5. 输出长度与性能: 模型输出长度的增加并不一定代表推理性能的提升,过长的输出反而可能导致“过度思考”和错误。

3. 代码和数据开源

该团队完整开源了全流程代码、参数设置、训练数据和设计经验,为后续研究提供了宝贵的参考。

4. 结论

这项研究证明了强化学习在提升LLM逻辑推理能力方面的巨大潜力,并为未来研究提供了诸多有价值的经验和启示。其低成本、高效率的训练方法,为AI在数学及其他逻辑推理领域的应用开辟了新的道路。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...