AIGC动态欢迎阅读
原标题:众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸
关键字:模型,提示,基准,分数,竞技场
文章来源:新智元
内容字数:6858字
内容摘要:
新智元报道编辑:alan
【新智元导读】最公平的大模型基准测试诞生了!来自LLM竞技场,最接近人类偏好,数据新鲜、速度快、成本低,严格分离学渣和学霸。大模型排行榜哪家强?还看LLM竞技场~
截至此刻,已有共计90名LLM加入战斗,用户总投票数超过了77万。
然而,在网友们吃瓜调侃新模型冲榜、老模型丧失尊严的同时,
人家竞技场背后的组织LMSYS,已经悄悄完成了成果转化:从实战中诞生的最有说服力的基准测试——Arena-Hard。
而Arena-Hard所展现出的四项优势,也正是当前的LLM基准测试最需要的:
-可分离性(87.4%)明显优于MT-bench(22.6%);
-与Chatbot Arena的排名最相近,达到89.1%;
-运行速度快,价格便宜(25美元)
-频繁更新实时数据
中译中一下就是,首先这个大模型的考试要有区分度,不能让学渣也考到90分;
其次,考试的题目应该更贴合实际,并且打分的时候要严格对齐人类偏好;
最后一定不能泄题,所以测试数据要经常更新,保证考试的公平;
——后两项要求对于LLM竞技场来说,简直像是量身定做。
我们来看一下新基准测试的效果:
上图中将A
原文链接:众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...