最强推理模型o1-mini也会下降3成6
新模型在数学推理能力评估中的挑战
近日,上海人工智能实验室司南OpenCompass团队针对大型语言模型在数学推理能力上的表现,推出了全新的复杂数学评测集LiveMathBench,并引入了G-Pass@16𝘛这一新评估指标。研究发现,尽管许多模型在传统评测中表现良好,但在真实使用场景下,其数学推理能力却大幅下降。
1. G-Pass@k指标的创新
传统的Pass@k指标主要关注模型在多次生成中至少给出一次正确答案的概率,而未能充分考虑模型的稳定性。为此,研究团队提出了Generalized Pass@k(G-Pass@k𝘛),通过引入阈值𝘛,来同时评估模型的性能潜力和稳定性。G-Pass@k𝘛在不同𝘛值下,能够反映模型的真实掌握程度,尤其是在处理复杂推理任务时。
2. LiveMathBench的构建
LiveMathBench包含238道题目,涵盖中国数学奥林匹克、高考模拟题及美国数学竞赛等,旨在降低数据污染的风险。通过对多种模型进行评测,研究团队希望能持续观察其在数学推理上的真实表现。
3. 评测结果与发现
实验结果显示,绝大多数模型在G-Pass@16𝘛上的得分均未超过30分,且在高难度题目上表现明显不佳。即便是表现相对较好的o1-mini模型,其得分也仅为42分,且整体性能下降显著。此外,研究表明,增大模型规模并未必能提升推理能力,且模型在保持一致性和稳定性方面仍存在挑战。
4. 结论与未来展望
本研究深入探讨了当前大型模型在数学推理能力上的不足,强调了在高可靠性应用中,提升模型的鲁棒性与稳定性的重要性。研究团队期待学术界及工业界在推理能力的鲁棒性上持续探索与创新,以更好地满足实际应用需求。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...