实测 OpenAI 最强模型 o1 ：做题王者，实战青铜

AIGC动态2年前 (2024)发布爱范儿

AIGC动态欢迎阅读

原标题：实测 OpenAI 最强模型 o1 ：做题王者，实战青铜
关键字：能力,模型,问题,官方,答案
文章来源：爱范儿
内容字数：0字

内容摘要：

做题王者
实战青铜本周OpenAI 突然发布了 o1 系列模型，最大的特点是擅长推理。
模型的能力，一代比一代强，我们的测评，一次比一次难做。测评变成一件「毕恭毕敬」的事情，生怕提不出好问题（难不倒它），在让它推理之前，我们自己的脑子就快烧没了。
最重要的原因是：我们想知道，被寄予厚望的新一代模型，有没有应用到实际生活中的推理能力？以及要如何测出这样的能力？
秉承着这个想法，我们设计了一套考验 o1-preview 综合能力的「考卷」。
省流版结论如下：它擅长做题、搞研究，更像一个适合待在实验室的高材生，你现在还不能指望它成为生活里的助手。
热身：数学与逻辑能力强，速度还不慢
发布会的数据大家看了很多，尤其是新一代 o1 在各项任务上的评分，都有超乎以往的表现。比如 OpenAI 的官方文档里，特别提到 AIME 数学竞赛的考试中，o1 都能取得不错的表现。
快速查了一下，这个 AIME 比赛，考题长这样：
原题粘贴过去，看看究竟是怎么个超强表现。o1-preview 反应很迅速，上手就开始解题了。
对比一下官方答案完全正确。反应时间也比预计的快，只是思考过程，并不是默认展开。
所以除

原文链接：实测 OpenAI 最强模型 o1 ：做题王者，实战青铜

联系作者

文章来源：爱范儿
作者微信：
作者简介：

阅读原文

# AIGC动态 # 官方 # 模型 # 答案 # 能力 # 问题

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

实测 OpenAI 最强模型 o1 ：做题王者，实战青铜

AIGC动态欢迎阅读

内容摘要：

联系作者

3 个月，和创新工场一起，做一款能挣钱的 AI 应用！

15.99 万元的帕萨特，成为了大众的一剂「止痛药」

相关文章

暂无评论

实测 OpenAI 最强模型 o1 ：做题王者，实战青铜

AIGC动态欢迎阅读

内容摘要：

联系作者

3 个月，和创新工场一起，做一款能挣钱的 AI 应用！

15.99 万元的帕萨特 ，成为了大众的一剂「止痛药」

相关文章

暂无评论

15.99 万元的帕萨特，成为了大众的一剂「止痛药」