o3:突破 ARC-AGI 基准,博士级问题求解能力
OpenAI 发布新推理模型 o3 和 o3-mini
近日,OpenAI 结束了为期 12 天的发布活动,推出了新的推理系列模型——o3 和 o3-mini。o3 是 o1 系列模型的继任者,旨在通过延长推理时间提高回答的准确性。在命名上跳过了 o2,主要是为了避免与英国电信公司 O2 产生混淆。
o3 模型性能突破 ARC-AGI 基准
o3 模型在 ARC-AGI 基准测试中表现出色,首次突破了该基准,最低性能达到了 75.7%,在高计算资源下可达到 87.5%。ARC-AGI 测试主要考察 AI 的模式识别与推理能力,o3 表现接近人类水平,展现了人工智能适应新任务的巨大潜力。尽管如此,专家仍指出,o3 还不是 AGI,因为它在简单任务上依然存在失败的情况。
o3-mini 的高性能与低成本优势
o3-mini 是一个更经济高效的版本,专注于提高推理速度并降低成本。它支持多种推理时间选项,并在编程任务上表现出色,尤其是在数学问题上,准确率与 GPT-4o 相当。o3-mini 的推出使得模型的应用更加广泛和灵活。
申请测试和未来计划
OpenAI 已经开始推进外部安全测试,测试者可以申请参与 o3-mini 的测试。申请截止日期为 2025 年 1 月 10 日,申请者需要提供相关信息以获得测试权限。OpenAI 还计划进一步开发下一代基准测试 ARC-AGI-2,以继续推动 AI 领域的发展。
总结与展望
OpenAI 在此次发布中展示了 o3 和 o3-mini 的潜力,尤其在解决复杂问题和编程任务上。虽然我们仍需观察这些模型在实际应用中的表现,但从目前的描述来看,未来的发展前景值得期待。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...