多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%

AI考试的能力在不断提高。

多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%

原标题:多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%
文章来源:机器之心
内容字数:4864字

DeepSeek R1推理模型及多元推理方法突破

近日,机器之心报道了波士顿大学、NotBadMath.AI、谷歌等机构研究者提出的多元推理方法,显著提升了大型语言模型在复杂推理任务上的准确率。该方法针对DeepSeek R1、OpenAI o1和o3等模型在国际数学奥林匹克竞赛(IMO)组合问题、抽象和推理语料库(ARC)谜题和人类的最后考试(HLE)问题上表现不佳的情况,提出了一种有效的解决方案。

1. 问题与挑战

当前主流推理模型,例如DeepSeek R1和OpenAI o1、o3,虽然在数学和编程领域取得了进展,但在一些高难度的基准测试中表现欠佳。例如,在HLE测试中,这些模型的准确率均低于10%。这表明现有模型在复杂推理、抽象和逻辑方面仍存在不足。

2. 多元推理方法

为了解决这个问题,研究者提出了一种多元推理方法,该方法的核心在于测试时结合多种模型、方法和代理,而非依赖单一模型。具体包括:

  1. 多元推理 (Diverse Inference): 同时使用多种模型和方法,例如在IMO问题中使用8种不同的方法(LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV),并通过交互式定理证明器Lean自动验证答案的正确性;在ARC谜题中通过代码自动验证;在HLE问题中使用best-of-N算法。
  2. 测试时模拟和强化学习: 通过生成额外特定于问题的信息,例如将组合题转化为可交互游戏环境,利用组合搜索或深度强化学习找到部分结果或边界;合成代码来探索谜题转换,从而优化候选解决方案。研究发现,使用训练过的验证器进行搜索往往比监督微调效果更好,这为强化学习微调提供了思路。
  3. 代码图的元学习: 利用LLM和其他工具追踪pipeline运行,生成超参数、提示词、代码标题和数据的A/B测试,并自适应地修改代理图。

3. 实验结果与发现

实验结果表明,多元推理方法显著提升了模型在各个基准上的准确率:

  • IMO组合问题:准确率从33.3%提升到77.8%。
  • HLE问题:准确率从8%提升到37%。
  • ARC谜题:解决了948名人类无法攻克的80%的谜题,以及o3 high无法解决的26.5%的谜题。

此外,研究者还发现了基础语言模型的第三个实证性scaling law:多种模型、方法的数量与可验证问题性能之间呈正相关关系。这与前两个scaling law(模型大小、数据大小和损失之间的关系;模型性能和测试时算力之间的关系)一起,为提升大型语言模型推理能力提供了新的方向。

4. 总结

这项研究提出了一种简单而高效的多元推理方法,显著提升了大型语言模型在复杂推理任务上的性能。该方法结合了多种模型、方法和测试时模拟、强化学习等技术,为未来大型语言模型的发展提供了新的思路和方向。 研究结果表明,通过合理的策略组合,可以有效克服当前大型语言模型在复杂推理问题上的局限性。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...