原标题:重磅!OpenAI推出o3模型系列:彻底颠覆AI怀疑论者,AGI评测基准达到惊人87.5%
文章来源:人工智能学家
内容字数:7934字
OpenAI推出o3模型系列及其测试表现
OpenAI近期发布了o3模型系列,涵盖o3、o3mini及其不同计算力版本。o3在ARC-AGI(通用人工智能评估基准)测试中取得了87.5%的高分,超越了人类的85%。这一成绩引起了广泛关注,ARC-AGI创始人指出,o3在适应新任务方面确实取得了重要突破。
低计算模式与高计算模式的表现
在低计算模式下,o3的得分为75.7%,而在高计算模式下则高达87.5%。尽管高成本的计算模式提供了更强的能力,但仍有一些ARC-AGI-1任务是o3无法解决的,ARC-AGI-2则对o3构成了更大的挑战。这表明,尽管o3在某些任务上表现优异,但仍未达到真正的AGI水平。
ARC-AGI基准的饱和现象
ARC-AGI基准的第一个版本已经开始出现饱和现象,预计在明年的Kaggle竞赛中,参赛者的平均得分将达到81%。未来的ARC-AGI-2版本将减少容易被的任务,挑战性将大幅提升。
o3的技术扩展瓶颈
未来AGI研究的关键在于理解o3背后技术的扩展瓶颈。如果人类标注的CoT数据成为主要瓶颈,o3的能力可能会迅速达到顶峰。对o3在高计算设置下无法解决的任务进行分析对于评估其优势与局限性至关重要。
o3在其他基准测试中的表现
除了ARC-AGI,o3在其他技术基准如EpochAI陶哲轩认证、AIME和GPQA-Diamond中也表现出色。在AIME 2024中,o3获得了96.7%的分数,仅错过一个问题,而在GPQA Diamond上则获得了87.7%的分数,远超人类专家的表现。
未来展望
OpenAI正在积极招募安全研究员参与o3-mini和o3的测试。未来知识库平台也将持续更新前沿科技研究资料,助力对AGI及其相关领域的深入理解。
总体来看,o3模型系列的推出标志着人工智能研究的一个重要里程碑,但仍需继续努力以实现通用人工智能的真正目标。
联系作者
文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构