被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线

AIGC动态1年前 (2024)发布 AI科技评论

AIGC动态欢迎阅读

原标题：被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线
关键字：模型,报告,知乎,团队,参数
文章来源：AI科技评论
内容字数：14869字

内容摘要：

领先 Mistral，对标 Mistral，超越 Mistral。作者丨王悦
编辑丨陈彩娴
大约 1 个月前，马斯克所创办的 xAI 团队宣布开源 Grok-1——一个参数量为 3140 亿的 MoE 大模型。从参数量来看，Grok-1 超越了 70B 的 LLaMA 2，是当前开源模型中最大的一个，被调侃为「庞然大物」。
然而，有研究人员测试却发现，参数规模量如此巨大的 Grok-1 ，效果竟然只与 Mistral AI 的 8x7B MoE 模型相当。也因此，业内人士评价，「Grok-1 在这么大的参数量规模上只实现了这么小的效果，实际是失败的。」
在大模型中，参数量大、不等于模型性能好。早在 2021 年 6 月，面壁智能初始团队就发布了千亿 MoE 大模型 CPM-2 ，是最早关注到这一问题的 AI 团队之一。
面壁智能 CTO 曾国洋告诉 AI 科技评论，他们从 2020 年 GPT-3 出来后开始训练大模型，也是走过一些弯路后才逐渐认识到，“提升模型效果是大模型训练的根本目标，但这并不意味着一定要通过扩大参数量规模和燃烧高昂的算力成本来实现。”
相反，“让每一个参数发挥最大

原文链接：被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线