专家模型不要专家并行！微软开源MoE新路径

AIGC动态欢迎阅读

原标题：专家模型不要专家并行！微软开源MoE新路径
关键字：模型,专家,梯度,张量,吞吐量
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：alan
【新智元导读】近日，来自微软的研究人员开源了使用全新方法训练的MoE大模型，不走寻常路，且编码和数学表现出色。继Phi家族之后，微软又开源了新的混合专家大模型——GRIN MoE。
与Phi-3.5同样的个头（16 * 3.8B），却采用了截然不同的训练方法。
这个「不走寻常路」如果写个太长不看版，那就是两句话：
1. 使用新一代SparseMixer来精确估计专家路由的梯度，解决传统方案中利用门控梯度代替路由梯度的问题。
2. 专家并行不要了，训练中改用数据、pipeline和张量并行，避免了传统方法丢弃token的问题。
论文地址：https://arxiv.org/abs/2409.12136
当然了，上面两句话是小编说的，多少有点糙，文中细节，还请诸君继续阅读~
这年头，新来一个LLM，当然要先刷分了——
参数要少，效果要好，所以要在左上角：
GRIN作为MoE架构，总参数量约42B，推理时激活的参数为6.6B，打同级别（7B）的非MoE模型是手拿把攥，甚至比14B的Phi-3还要略胜一筹。
在上面的这份成绩单中，GRIN MoE表现优异，尤其是在编

原文链接：专家模型不要专家并行！微软开源MoE新路径