MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

AIGC动态4个月前发布 新智元
20 0 0

MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

AIGC动态欢迎阅读

原标题:MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限
关键字:专家,模型,数量,参数,大小
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:编辑部
【新智元导读】MoE已然成为AI界的主流架构,不论是开源Grok,还是闭源GPT-4,皆是其拥趸。然而,这些模型的专家,最大数量仅有32个。最近,谷歌DeepMind提出了全新的策略PEER,可将MoE扩展到百万个专家,还不会增加计算成本。如果你熟悉当前LLM的主流架构,混合专家(MoE)技术想必是老朋友之一。有人甚至会说,MoE是使大模型崛起的关键因素之一。
开源的Mixtral、DBRX、Grok等模型都使用了MoE,而且根据Soumith Chintala等大佬的推测,GPT-4也是一个规模为8×220B的MoE模型。
类似GPT-4,多数MoE模型都会将专家数量限制在较少数量,一般不会超过16或32。
然而,DeepMind研究科学家Xu Owen He最近就在一篇独立发表的论文中,提出了一种全新的方法——PEER(参数高效专家检索,Parameter Efficient Expert Retrieval),可以将专家数量扩展到百万数量级。
论文地址:https://arxiv.org/abs/2407.04153
这究竟是如何做到的?参数量不会爆炸吗


原文链接:MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...