o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%

o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%

AIGC动态欢迎阅读

原标题:o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%
关键字:模型,基准,数学,问题,答案
文章来源:量子位
内容字数:0字

内容摘要:


一水 发自 凹非寺量子位 | 公众号 QbitAI让大模型集体吃瘪,数学题正确率通通不到2%!
获大神卡帕西力荐,大模型新数学基准来势汹汹——
一出手,曾在国际数学奥赛中拿下83%解题率的o1模型就败下阵来,并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。
所以,新挑战者到底啥来头??
一打听,这个新数学基准名为FrontierMath,由Epoch AI这家非营利研究机构号召陶哲轩在内的60多位顶尖数学家提出。
这群人这次铁了心要给AI上难度,直接原创了数百道极具挑战性的数学问题——
从数论中计算密集型问题到代数几何和范畴论中的抽象问题,涵盖了现代数学的大多数主要分支。
这些题有多难呢?按数学大佬陶哲轩对这项研究的评价说:
大模型们,至少需要再战个几年吧。
同时,卡帕西也表示非常喜欢这一新基准,甚至乐于见到大模型们“吃瘪”:
之所以引入这个基准,是因为大模型越来越多地碾压现有的数学基准
FrontierMath:评估AI高级数学推理能力的新基准今年以来,大语言模型(LLM)开始在各种数学benchmark上疯狂刷分,而且正确


原文链接:o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...