众包新玩法！LLM竞技场诞生基准测试，严格分离学渣学霸

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：众包新玩法！LLM竞技场诞生基准测试，严格分离学渣学霸
关键字：模型,提示,基准,分数,竞技场
文章来源：新智元
内容字数：6858字

内容摘要：

新智元报道编辑：alan
【新智元导读】最公平的大模型基准测试诞生了！来自LLM竞技场，最接近人类偏好，数据新鲜、速度快、成本低，严格分离学渣和学霸。大模型排行榜哪家强？还看LLM竞技场~
截至此刻，已有共计90名LLM加入战斗，用户总投票数超过了77万。
然而，在网友们吃瓜调侃新模型冲榜、老模型丧失尊严的同时，
人家竞技场背后的组织LMSYS，已经悄悄完成了成果转化：从实战中诞生的最有说服力的基准测试——Arena-Hard。
而Arena-Hard所展现出的四项优势，也正是当前的LLM基准测试最需要的：
-可分离性（87.4%）明显优于MT-bench（22.6%）；
-与Chatbot Arena的排名最相近，达到89.1%；
-运行速度快，价格便宜（25美元）
-频繁更新实时数据
中译中一下就是，首先这个大模型的考试要有区分度，不能让学渣也考到90分；
其次，考试的题目应该更贴合实际，并且打分的时候要严格对齐人类偏好；
最后一定不能泄题，所以测试数据要经常更新，保证考试的公平；
——后两项要求对于LLM竞技场来说，简直像是量身定做。
我们来看一下新基准测试的效果：
上图中将A

原文链接：众包新玩法！LLM竞技场诞生基准测试，严格分离学渣学霸