专家模型不要专家并行!微软开源MoE新路径

专家模型不要专家并行!微软开源MoE新路径

AIGC动态欢迎阅读

原标题:专家模型不要专家并行!微软开源MoE新路径
关键字:模型,专家,梯度,张量,吞吐量
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:alan
【新智元导读】近日,来自微软的研究人员开源了使用全新方法训练的MoE大模型,不走寻常路,且编码和数学表现出色。继Phi家族之后,微软又开源了新的混合专家大模型——GRIN MoE。
与Phi-3.5同样的个头(16 * 3.8B),却采用了截然不同的训练方法。
这个「不走寻常路」如果写个太长不看版,那就是两句话:
1. 使用新一代SparseMixer来精确估计专家路由的梯度,解决传统方案中利用门控梯度代替路由梯度的问题。
2. 专家并行不要了,训练中改用数据、pipeline和张量并行,避免了传统方法丢弃token的问题。
论文地址:https://arxiv.org/abs/2409.12136
当然了,上面两句话是小编说的,多少有点糙,文中细节,还请诸君继续阅读~
这年头,新来一个LLM,当然要先刷分了——
参数要少,效果要好,所以要在左上角:
GRIN作为MoE架构,总参数量约42B,推理时激活的参数为6.6B,打同级别(7B)的非MoE模型是手拿把攥,甚至比14B的Phi-3还要略胜一筹。
在上面的这份成绩单中,GRIN MoE表现优异,尤其是在编


原文链接:专家模型不要专家并行!微软开源MoE新路径

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...