新测试基准发布,最强开源Llama 3尴尬了

AIGC动态8个月前发布 量子位
8 0 0

新测试基准发布,最强开源Llama 3尴尬了

AIGC动态欢迎阅读

原标题:新测试基准发布,最强开源Llama 3尴尬了
关键字:提示,模型,测试,竞技场,人类
文章来源:量子位
内容字数:4182字

内容摘要:


梦晨 发自 凹非寺量子位 | 公众号 QbitAI如果试题太简单,学霸和学渣都能考90分,拉不开差距……
随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需一款更难、更有区分度的基准测试。
大模型竞技场背后组织LMSYS推出下一代基准测试Arena-Hard,引起广泛关注。
Llama 3的两个指令微调版本实力到底如何,也有了最新参考。
与之前大家分数都相近的MT Bench相比,Arena-Hard区分度从22.6%提升到87.4%,孰强孰弱一目了然。
Arena-Hard利用竞技场实时人类数据构建,与人类偏好一致率也高达89.1%。
除了上面两个指标都达到SOTA之外,还有一个额外的好处:
实时更新的测试数据包含人类新想出的、AI在训练阶段从未见过的提示词,减轻潜在的数据泄露。
并且新模型发布后,无需再等待一周左右时间让人类用户参与投票,只需花费25美元快速运行测试管线,即可得到结果。
有网友评价,使用真实用户提示词而不是高中考试来测试,真的很重要。
新基准测试如何运作?简单来说,通过大模型竞技场20万个用户查询中,挑选500个高质量提示词作为测试集。


原文链接:新测试基准发布,最强开源Llama 3尴尬了

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...