上海AI Lab重塑大模型挑战,重新定义GPT-4o数学能力!

最强推理模型o1-mini也会下降3成6

上海AI Lab重塑大模型挑战,重新定义GPT-4o数学能力!

原标题:GPT-4o数学能力跑分直掉50%,上海AI Lab开始给大模型重新出题了
文章来源:量子位
内容字数:7405字

研究团队对大型模型数学推理能力的深入分析

根据上海AI实验室司南OpenCompass团队的研究,当前大型模型在数学推理方面的表现存在显著差距,尤其是在多次采样时的稳定性不足。尽管新模型在MATH等数学竞赛中表现出色,实际使用时却表现不佳。为此,团队推出了新的复杂数学评测集LiveMathBench,结合全新的性能指标G-Pass@16𝘛,以更全面地评估模型的性能潜力和稳定性。

1. 新评价指标G-Pass@k的提出

研究团队重新思考了传统的评测指标,如Pass@k和Best-of-N,发现这些指标主要关注模型的性能潜力,而忽略了稳定性。G-Pass@k通过引入阈值𝘛,衡量模型在多次生成中至少给出一定次数正确答案的概率,能够更好地反映模型的实际表现。

2. LiveMathBench数据集的构建

团队构建了LiveMathBench数据集,以减少数据污染的可能性。该数据集包含238道题目,覆盖不同难度,旨在持续观测大型模型的真实数学水平。实验结果显示,大部分模型在G-Pass@16𝘛指标上表现不佳,甚至最强模型o1-mini的性能也显著下降。

3. 模型性能的观察与分析

研究发现,闭源和开源模型在复杂推理任务上均无法稳定地表现出色。即使是表现较好的模型,在G-Pass@K评估中,性能也出现了明显下降。此外,增大模型规模并未显著提升推理能力,说明简单扩展参数并不能解决模型在推理和上下文理解上的不足。

4. 性能潜力与实际表现的差距

研究还揭示了理论最大能力与实际表现之间的巨大差距。虽然一些模型在单次推理中表现优秀,但在多次重复采样中却难以保持稳定,显示出推理稳定性和一致性不足的问题。这一发现强调了在高可靠性要求的应用中,需要平衡模型的性能和输出稳定性。

总结

本研究通过引入G-Pass@16𝘛指标和LiveMathBench数据集,深入分析了当前大型模型的数学推理能力。实验结果表明,当前模型在推理稳定性上仍有待提高,未来需要在鲁棒性研究上持续探索与推进。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...