UC伯克利「LLM排位赛」结果出炉！Claude 3追平GPT-4并列第一

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：UC伯克利「LLM排位赛」结果出炉！Claude 3追平GPT-4并列第一
关键字：标志,符号,报告,征兆,线性
文章来源：新智元
内容字数：6663字

内容摘要：

新智元报道编辑：润
【新智元导读】Claude 3不但数据集跑分领先，用户体验上也将成为最强大的LLM，GPT-5在哪里？Claude 3和GPT-4到底谁厉害？
自从Claude 3发布以来，Anthropic官方对外宣称的说法就是「全面超越GPT-4」，在技术报告中给出的各个测试集的数据来看，也都几乎稳压GPT-4-Turbo一头。
但之前的新模型出来都要在跑分上「吊打」GPT-4，但实际体验却很少有真的能和GPT-4掰手腕的。
各行各业用户试用过Claude 3，发现体验似乎也比GPT-4要好。
在通过人类用户打分进行排名的lmsys LLM Arena中，Claude 3在不断积累了真实用户反馈分数之后，排名不断爬升。
众所周知，这个排行榜因为是基于人类对于大模型回答的真实感受打分来排名的，对于越早初现的LLM，就能积累越多的评价，分数也越容易刷高。
所以之前出现了Claude 1.0排名高于Claude 2.0的情况，就是因为如果提升不明显，先发布的模型得分会更有优势。
而距离Claude 3发布一个多星期的时间，它就已经和发布了几个月的GPT-4最新版并列第一了。
而且C

原文链接：UC伯克利「LLM排位赛」结果出炉！Claude 3追平GPT-4并列第一