MoE 高效训练的 A/B 面：与魔鬼做交易，用「显存」换「性能」

AIGC动态1年前 (2024)发布 AI科技评论

AIGC动态欢迎阅读

原标题：MoE 高效训练的 A/B 面：与魔鬼做交易，用「显存」换「性能」
关键字：模型,架构,参数,报告,高效
文章来源：AI科技评论
内容字数：13708字

内容摘要：

在高效训练与高显存占用之间横跳的 MoE，更像是一门妥协的艺术。作者｜房晓楠
编辑｜陈彩娴
MoE 会成为未来大模型训练的新方向吗？
这是人们发现 MoE 架构可以用于大模型训练、推理后，发出的一声疑问。
MoE（Mixture of Experts），又称「混合专家」，本质是一种模块化的稀疏激活。怎么理解？
当前的大模型主要分为稠密（dense）模型与稀疏（sparse）模型，两者的区别主要在于模型进行计算时，被调用的参数数量，参数全部生效使用的是稠密模型，比如 OpenAI 从第一代到第三代即 GPT-1、 GPT-2、 GPT-3，以及 Meta 的 Llama 系列都是稠密模型；只使用其中一部分参数的是稀疏模型，比如基于 MoE 架构的模型，而这些被使用的参数称为「激活参数」。
具体从网络结构来看，目前主流的大模型大都是基于 Transformer 架构，由多个 Transformer Block 叠加组成，在每一个 Transformer Block 内部都会包括两层结构，一层是多头自注意力（Multi-Head Self-Attention），另一层是位置前馈神经网络（Po

原文链接：MoE 高效训练的 A/B 面：与魔鬼做交易，用「显存」换「性能」