实测 OpenAI 最强模型 o1 :做题王者,实战青铜

AIGC动态3个月前发布 爱范儿
5 0 0

实测 OpenAI 最强模型 o1 :做题王者,实战青铜

AIGC动态欢迎阅读

原标题:实测 OpenAI 最强模型 o1 :做题王者,实战青铜
关键字:能力,模型,问题,官方,答案
文章来源:爱范儿
内容字数:0字

内容摘要:


做题王者
实战青铜本周OpenAI 突然发布了 o1 系列模型,最大的特点是擅长推理。
模型的能力,一代比一代强,我们的测评,一次比一次难做。测评变成一件「毕恭毕敬」的事情,生怕提不出好问题(难不倒它),在让它推理之前,我们自己的脑子就快烧没了。
最重要的原因是:我们想知道,被寄予厚望的新一代模型,有没有应用到实际生活中的推理能力?以及要如何测出这样的能力?
秉承着这个想法,我们设计了一套考验 o1-preview 综合能力的「考卷」。
省流版结论如下:它擅长做题、搞研究,更像一个适合待在实验室的高材生,你现在还不能指望它成为生活里的助手。
热身:数学与逻辑能力强,速度还不慢
发布会的数据大家看了很多,尤其是新一代 o1 在各项任务上的评分,都有超乎以往的表现。比如 OpenAI 的官方文档里,特别提到 AIME 数学竞赛的考试中,o1 都能取得不错的表现。
快速查了一下,这个 AIME 比赛,考题长这样:
原题粘贴过去,看看究竟是怎么个超强表现。o1-preview 反应很迅速,上手就开始解题了。
对比一下官方答案完全正确。反应时间也比预计的快,只是思考过程,并不是默认展开。
所以除


原文链接:实测 OpenAI 最强模型 o1 :做题王者,实战青铜

联系作者

文章来源:爱范儿
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...