GPT-4o mini排名雪崩，大模型竞技场规则更新，奥特曼刷分小技巧无效了

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：GPT-4o mini排名雪崩，大模型竞技场规则更新，奥特曼刷分小技巧无效了
关键字：模型,长度,格式,竞技场,分数
文章来源：量子位
内容字数：0字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAI大模型竞技场规则更新，GPT-4o mini排名立刻雪崩，跌出前10。
新榜单对AI回答的长度和风格等特征做了降权处理，确保分数反映模型真正解决问题的能力。
想用漂亮的格式、增加小标题数量等技巧讨好用户、刷榜，现在统统没用了。
在新规则下，奥特曼的GPT-4o mini、马斯克的Grok-2系列排名显著下降，谷歌Gemini-1.5-flash小模型也有所回落。
Claude系列、Llama-3.1-405b大模型分数则纷纷上涨。
只计算困难任务（Hard Prompt）的情况下，大模型在风格控制榜单中的优势更加明显。
此前GPT-4o mini小模型一度登顶，与GPT-4o满血版并列第一，与网友的体感明显不符。
Lmsys大模型竞技场这个一度被Karpathy推荐的评价标准，口碑也跌落到“只能反映用户喜好而不是模型能力了”。
Lmsys组织痛定思痛，先是公开了GPT-4o mini参与的1000场battle数据，从而分析出模型拒绝回答率、生成内容长度、和格式排版是影响投票结果的几个因素。
而且奥特曼还在GPT-4o mini发布之前

原文链接：GPT-4o mini排名雪崩，大模型竞技场规则更新，奥特曼刷分小技巧无效了