最新！LeCun发起的LLM评测榜单中，这个大模型拿下中国第一

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：最新！LeCun发起的LLM评测榜单中，这个大模型拿下中国第一
关键字：模型,语言,指令,星辰,和数
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说分享国产大模型的“含金量”还在上升！
今日消息，国际权威榜单 LiveBench 官网公布了最新的语言大模型测评结果，阶跃星辰自研的万亿参数语言大模型 Step-2 的技术表现位列中国基座大模型第一，成绩逼近 OpenAI 的 o1-mini-2024-09-12，超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002 等国际主流模型，是唯一进入榜单前十名的中国语言大模型，位列全球第五。另外，同时上榜的中国大模型公司还有通义千问和 DeepSeek。
LiveBench 的权威性在大语言模型测评圈中有着难以撼动的地位，被称为“世界上第一个不可玩弄的 LLM 基准测试”，不仅因为它是由图灵奖得主、Meta 首席 AI 科学家杨立昆（Yann LeCun）联合 Abacus.AI、纽约大学等机构联合推出，更因为 LiveBench 通过一系列设计以确保测试集的客观、中立和广泛性。比如通过“每月更新题目”避免大模型微调作弊，设计中立的评价体系以避免人类评价者受格式偏好和文风影响，全面评估大模型包括推理、编程、写作和数据分析在内的多种维度等等。
因为高度

原文链接：最新！LeCun发起的LLM评测榜单中，这个大模型拿下中国第一