新测试基准发布，最强开源Llama 3尴尬了

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：新测试基准发布，最强开源Llama 3尴尬了
关键字：提示,模型,测试,竞技场,人类
文章来源：量子位
内容字数：4182字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAI如果试题太简单，学霸和学渣都能考90分，拉不开差距……
随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布，业界急需一款更难、更有区分度的基准测试。
大模型竞技场背后组织LMSYS推出下一代基准测试Arena-Hard，引起广泛关注。
Llama 3的两个指令微调版本实力到底如何，也有了最新参考。
与之前大家分数都相近的MT Bench相比，Arena-Hard区分度从22.6%提升到87.4%，孰强孰弱一目了然。
Arena-Hard利用竞技场实时人类数据构建，与人类偏好一致率也高达89.1%。
除了上面两个指标都达到SOTA之外，还有一个额外的好处：
实时更新的测试数据包含人类新想出的、AI在训练阶段从未见过的提示词，减轻潜在的数据泄露。
并且新模型发布后，无需再等待一周左右时间让人类用户参与投票，只需花费25美元快速运行测试管线，即可得到结果。
有网友评价，使用真实用户提示词而不是高中考试来测试，真的很重要。
新基准测试如何运作？简单来说，通过大模型竞技场20万个用户查询中，挑选500个高质量提示词作为测试集。

原文链接：新测试基准发布，最强开源Llama 3尴尬了