280页PDF，全方位评估OpenAI o1，Leetcode刷题准确率竟这么高

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：280页PDF，全方位评估OpenAI o1，Leetcode刷题准确率竟这么高
关键字：报告,问题,模型,能力,领域
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：张倩计算机科学、数学、自然科学、医学、语言学、社会科学……OpenAI o1擅长什么？还有哪些不足？OpenAI 的 o1-preview 模型已经发布两周了，网上也有了很多零星的测评。不过，大部分测评都侧重于某一个方面，对于 o1-preview 的系统评估目前还比较匮乏。
在一篇长达 280 页的论文中，来自加拿大阿尔伯塔大学等机构的研究者报告了他们对 o1-preview 的系统评估结果，非常具有参考价值。论文标题：Evaluation of OpenAI o1: Opportunities and Challenges of AGI
论文链接：https://arxiv.org/pdf/2409.18486
具体来说，这项综合研究评估了 o1-preview 在各种复杂推理任务中的性能，涵盖多个领域，包括计算机科学、数学、自然科学、医学、语言学和社会科学。通过严格的测试，o1-preview 展示了非凡的能力。
主要结论如下：
编程挑战：在解决复杂的竞赛性编程问题上，o1-preview 的成功率达到了 83.3%，超过了众多的人类专家。
放射学报告生成：在

原文链接：280页PDF，全方位评估OpenAI o1，Leetcode刷题准确率竟这么高