MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限
关键字：专家,模型,数量,参数,大小
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】MoE已然成为AI界的主流架构，不论是开源Grok，还是闭源GPT-4，皆是其拥趸。然而，这些模型的专家，最大数量仅有32个。最近，谷歌DeepMind提出了全新的策略PEER，可将MoE扩展到百万个专家，还不会增加计算成本。如果你熟悉当前LLM的主流架构，混合专家（MoE）技术想必是老朋友之一。有人甚至会说，MoE是使大模型崛起的关键因素之一。
开源的Mixtral、DBRX、Grok等模型都使用了MoE，而且根据Soumith Chintala等大佬的推测，GPT-4也是一个规模为8×220B的MoE模型。
类似GPT-4，多数MoE模型都会将专家数量限制在较少数量，一般不会超过16或32。
然而，DeepMind研究科学家Xu Owen He最近就在一篇发表的论文中，提出了一种全新的方法——PEER（参数高效专家检索，Parameter Efficient Expert Retrieval），可以将专家数量扩展到百万数量级。
论文地址：https://arxiv.org/abs/2407.04153
这究竟是如何做到的？参数量不会吗

原文链接：MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限