GPT-4o mini排名雪崩,大模型竞技场规则更新,奥特曼刷分小技巧无效了

GPT-4o mini排名雪崩,大模型竞技场规则更新,奥特曼刷分小技巧无效了

AIGC动态欢迎阅读

原标题:GPT-4o mini排名雪崩,大模型竞技场规则更新,奥特曼刷分小技巧无效了
关键字:模型,长度,格式,竞技场,分数
文章来源:量子位
内容字数:0字

内容摘要:


梦晨 发自 凹非寺量子位 | 公众号 QbitAI大模型竞技场规则更新,GPT-4o mini排名立刻雪崩,跌出前10。
新榜单对AI回答的长度和风格等特征做了降权处理,确保分数反映模型真正解决问题的能力。
想用漂亮的格式、增加小标题数量等技巧讨好用户、刷榜,现在统统没用了。
在新规则下,奥特曼的GPT-4o mini、马斯克的Grok-2系列排名显著下降,谷歌Gemini-1.5-flash小模型也有所回落。
Claude系列、Llama-3.1-405b大模型分数则纷纷上涨。
只计算困难任务(Hard Prompt)的情况下,大模型在风格控制榜单中的优势更加明显。
此前GPT-4o mini小模型一度登顶,与GPT-4o满血版并列第一,与网友的体感明显不符。
Lmsys大模型竞技场这个一度被Karpathy推荐的评价标准,口碑也跌落到“只能反映用户喜好而不是模型能力了”。
Lmsys组织痛定思痛,先是公开了GPT-4o mini参与的1000场battle数据,从而分析出模型拒绝回答率、生成内容长度、和格式排版是影响投票结果的几个因素。
而且奥特曼还在GPT-4o mini发布之前


原文链接:GPT-4o mini排名雪崩,大模型竞技场规则更新,奥特曼刷分小技巧无效了

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...