o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

AIGC动态2年前 (2025)发布量子位

官方承认给数据但否认OpenAI作弊

原标题：o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里
文章来源：量子位
内容字数：3745字

OpenAI的o3模型：数学成绩造假

近日，OpenAI的全新模型o3在数学能力测试中表现优异，引发广泛关注。然而，这一成绩却伴随着巨大的争议，其背后隐藏着OpenAI与数学基准测试机构Epoch.ai之间的秘密协议。

1. 秘密赞助与提前获取题目：Epoch.ai开发的FrontierMath数学测试基准，由包括陶哲轩在内的60多位数学家共同设计，题目难度极高。然而，OpenAI在o3发布前就获得了该基准的经费赞助，并提前获取了测试题目，而参与出题的数学家们对此毫不知情，直到o3发布后才从公开信息中得知此事。

2. 保密协议的讽刺：FrontierMath的题目和答案均被严格保密，参与者需签署保密协议，甚至禁止使用协同工具进行交流。然而，OpenAI却能提前获得这些题目，这与保密协议形成了鲜明对比，也引发了人们对数据安全和学术诚信的质疑。

3. Epoch.ai的回应与争议：Epoch.ai联合创始人Tamay Besiroglu承认了秘密赞助和OpenAI提前获取题目的事实，但否认OpenAI作弊，声称OpenAI只获得部分数据，并口头承诺不会用于模型训练。这一回应并未消除质疑，许多人认为仅凭口头承诺不足以保证数据不被滥用，并质疑OpenAI获取访问权限的目的。

4. 专家们的担忧与后续：多位专家证实了OpenAI提前获取题目的事实，并表达了担忧。斯坦福博士Carina Hong表示，部分专家如果事先知道OpenAI的独家访问权，可能不会选择参与出题。Epoch.ai首席数学家Ellot Glazer承诺未来将公开资助信息，并表示相信OpenAI的报告准确性，认为OpenAI没有作弊的动机。然而，这一说法也引发了网友的质疑。

5. o3模型的真实能力成谜：目前，o3模型的真实能力仍然是一个谜团。其在FrontierMath上的高分成绩，在缺乏透明度和信任的情况下，其可靠性受到了极大的挑战。o3是否名副其实，还有待进一步验证。

6. 后续发展：OpenAI方面尚未对此事进行回应，Epoch.ai则承诺开发新的保留数据集，以防止类似再次发生。整个暴露了AI模型评估过程中的透明度和数据安全问题，也引发了人们对AI发展伦理的思考。