国产大模型之光！伯克利最新基准发布，智谱AI打赢GPT-4和Llama 3

AIGC动态2年前 (2024)发布智东西

AIGC动态欢迎阅读

原标题：国产大模型之光！伯克利最新基准发布，智谱AI打赢GPT-4和Llama 3
关键字：模型,报告,腾讯,小米,解读
文章来源：智东西
内容字数：8764字

内容摘要：

让Llama 3祛魅的新基准，“中国OpenAI”交卷了。
作者|香草
编辑|漠影
近日，Meta开源Llama 3系列模型，引发开源社区沸腾。
同时也有唱衰国产大模型的声音出现，认为Llama 3的开源“又”将为国产大模型带来“新突破”。但事实果真如此吗？
智东西4月30日报道，上周，来自UC伯克利等机构的团队LMSYS开源了大模型基准测试Arena-Hard，以高度的人类偏好一致性、可分性为优势，同时测试数据集更新频率高，具备优秀的开放性、动态性、科学性和权威性。
根据该基准测试，国产大模型ChatGLM3、GLM-4排名仅次于GPT-4 Turbo和Claude 3 Opus，在国内外模型中均处于领先地位。
同样在上周发布的还有《SuperBench大模型综合能力评测报告》，由清华大学基础模型研究中心联合中关村实验室研制。在语义、代码、对齐、智能体和安全五个榜单中，GLM-4有3项排名国内第一，其中语义理解能力更是仅次于Claude 3位列全球第二。
GLM系列模型是智谱AI自研的基座大模型，其中GLM-4是其在今年1月推出的最新一代，具备多模态、长文本、智能体等能力。
这表明，