OpenAI o1全方位SOTA登顶lmsys排行榜!数学能力碾压Claude和谷歌模型,o1-mini并列第一

AIGC动态2个月前发布 新智元
1 0 0

OpenAI o1全方位SOTA登顶lmsys排行榜!数学能力碾压Claude和谷歌模型,o1-mini并列第一

AIGC动态欢迎阅读

原标题:OpenAI o1全方位SOTA登顶lmsys排行榜!数学能力碾压Claude和谷歌模型,o1-mini并列第一
关键字:模型,代码,人类,领域,排行榜
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:乔杨
【新智元导读】o1模型发布1周,lmsys的6k+投票就将o1-preview送上了排行榜榜首。同时,为了满足大家对模型「IOI金牌水平」的好奇心,OpenAI放出了o1测评时提交的所有代码。万众瞩目的最新模型OpenAI o1,终于迎来了lmsys竞技场的测评结果。
不出意外,o1-preview在各种领域绝对登顶,超过了最新版的GPT-4o,在数学、困难提示和编码领域表现出色;
而o1-mini虽然名字中自带「mini」,但也和最新版的GPT-4o并列综合排名第二,困难提示、编码、数学等领域和o1-preview同样登顶第一。
果然,o1模型不愧是通用推理领域的新王。
lmsys社区官方发推表示,这项测试结果收集了6k+社区投票,并将OpenAI这次取得的进展描述为「令人难以置信的里程碑」。
单纯看排行榜的排名可能不够具有说服力,于是lmsys特意统计了总榜上前25名模型的1v1胜率。
可以看到,o1-preview对所有模型的胜率都超过了50%,对比04-09版GPT-4-Turbo的胜率最高,达到了88%。
o1-mini如果对战o1-preview,胜


原文链接:OpenAI o1全方位SOTA登顶lmsys排行榜!数学能力碾压Claude和谷歌模型,o1-mini并列第一

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...