GPT-4.5登顶6小时即失守！Grok-3上演1分逆袭

AIGC动态1年前 (2025)发布量子位

363 0 0

奥特曼：第一次有人求我承诺不会下架一款模型

原标题：GPT-4.5登顶6小时即失守！Grok-3上演1分逆袭
文章来源：量子位
内容字数：1870字

大模型竞技场风云变幻：GPT-4.5与Grok-3巅峰对决

近日，大模型竞技场竞争激烈，GPT-4.5和马斯克的新版Grok-3上演了一场精彩的“”。

GPT-4.5短暂登顶
GPT-4.5最初以全任务分类第一名的成绩登顶，获得3000+票数，总分达到1412分。
Grok-3强势反超
然而，仅仅6小时后，Grok-3便以1411分反超GPT-4.5，成为总榜第一。两者票数均超过3000，差距仅为一分。Grok-3主要在总体带风格控制、困难提示词带风格控制方面略胜一筹，在其他方面与GPT-4.5不相上下。DeepSeek-R1也表现出色，在数学和困难提示词带风格控制分项上与GPT-4.5并列第一。
投票机制引发的争议
如此迅速的排名变化引发了用户的质疑。有人解释称，竞技场存在投票数量门槛，两个模型先后达到3000票才出现在榜单上，这导致了排名变化的集现。
GPT-4.5口碑逆转
尽管在竞技场上的表现存在争议，但GPT-4.5的口碑却在悄然发生逆转。最初，GPT-4.5因价格昂贵且官方强调的情商优势并未在初期跑分中体现出来而备受质疑。但随着时间的推移，越来越多的用户开始认可其情商方面的能力，OpenAI CEO山姆·奥特曼也对此表示认同，并分享了用户对其的赞扬以及自己与GPT-4.5的精彩对话。
奥特曼与GPT-4.5的对话
奥特曼分享了GPT-4.5对奥特曼创作的六个单词小故事“临近奇点，不清楚在哪一侧”的解读。GPT-4.5认为人类已经进入人工智能重塑人类思想、创造力等方面的新世界，但其影响的具体含义尚不明朗。
GPT-4.5在“狼人杀”AI比赛中获胜
除了竞技场排名，GPT-4.5还在一个类似“狼人杀”的AI模型比赛中夺冠。该比赛要求AI模型进行多轮淘汰赛，包括公开辩论、私下策略制定以及投票淘汰等环节。最终，GPT-4.5在结盟、、背叛等策略运用方面表现出色，甚至优于人类，并获得由被淘汰参赛者组成的陪审团的认可。

总而言之，大模型竞技场的竞争异常激烈，排名变化瞬息万变。GPT-4.5虽然在竞技场排名上经历了短暂的巅峰和被超越，但其在实际应用和口碑方面都展现出其强大的实力。这同时也反映出大模型技术发展日新月异，未来还将有更多惊喜和挑战等待我们。