震惊！OpenAI“造假”石锤？秘密参与数学基准测试，FrontierMath 透明度遭质疑

AIGC动态2年前 (2025)发布人工智能学家

254 0 0

原标题：震惊！OpenAI“造假”石锤？秘密参与数学基准测试，FrontierMath 透明度遭质疑
文章来源：人工智能学家
内容字数：11057字

Epoch AI就FrontierMath项目透明度问题致歉

Epoch AI公司就其与OpenAI合作的FrontierMath项目透明度问题发表声明，公开道歉并承诺改进未来合作的透明度。

1. 概述

FrontierMath是一个评估前沿数学模型能力的基准测试项目，Epoch AI与OpenAI合作开发。由于沟通和透明度不足，Epoch AI遭到了批评。其声明承认在与OpenAI合作过程中存在以下错误：

2. 主要错误

披露时间过晚：由于合同限制，Epoch AI直到FrontierMath第三次迭代发布前后才披露与OpenAI的合作关系。他们承认应该在谈判中争取尽早披露合作信息。
沟通不一致：Epoch AI向部分数学家透露了他们获得了实验室资助，但未系统地告知所有参与者，也未明确指出合作的实验室是OpenAI。
未将透明度作为合作前提：即使受到合同限制，Epoch AI也应该将与贡献者的透明度作为与OpenAI达成协议的不可协商部分。数学家们有权知道谁可以访问他们的工作成果。

3. 数据访问与使用

OpenAI确实可以访问FrontierMath的大部分问题和解决方案，但有一个未被OpenAI看到的保留集，用于验证模型能力。双方有口头协议，这些材料不会被用于模型训练。OpenAI的相关员工公开将FrontierMath描述为“强保留”的评估集，这与Epoch AI的理解一致。OpenAI也支持Epoch AI维护一个单独的、未被看到的保留集，以防止过拟合并确保准确衡量模型的进步。

4. 未来改进

Epoch AI承诺在未来的合作中改进透明度，确保贡献者在项目开始时就获得关于资金来源、数据访问和使用目的的清晰信息。他们将努力在所有可能的方面提高透明度。

5. 总结

此次突显了在人工智能研究合作中，保持透明度和开放沟通的重要性。Epoch AI的道歉和承诺改进，为未来人工智能项目合作树立了改进的榜样，强调了数据安全和研究伦理的重要性。

联系作者

文章来源：人工智能学家
作者微信：
作者简介：致力成为权威的人工智能科技媒体和前沿科技研究机构

阅读原文

# AIGC动态 # AI基准测试透明度 # FrontierMath测试争议 # OpenAI模型造假质疑 # 人工智能可信度评估 # 大型语言模型数学能力评估

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

震惊！OpenAI“造假”石锤？秘密参与数学基准测试，FrontierMath 透明度遭质疑

Epoch AI就FrontierMath项目透明度问题致歉

1. 概述

2. 主要错误

3. 数据访问与使用

4. 未来改进

5. 总结

联系作者

最新！OpenAI计划公布“博士级超级代理”

关于 GPT-5 的谣言会改变一切

相关文章

暂无评论

震惊！OpenAI“造假”石锤？ 秘密参与数学基准测试，FrontierMath 透明度遭质疑

Epoch AI就FrontierMath项目透明度问题致歉

1. 概述

2. 主要错误

3. 数据访问与使用

4. 未来改进

5. 总结

联系作者

最新！OpenAI计划公布“博士级超级代理”

关于 GPT-5 的谣言会改变一切

相关文章

暂无评论

震惊！OpenAI“造假”石锤？秘密参与数学基准测试，FrontierMath 透明度遭质疑