微软让MoE长出多个头,大幅提升专家激活率

微软让MoE长出多个头,大幅提升专家激活率

AIGC动态欢迎阅读

原标题:微软让MoE长出多个头,大幅提升专家激活率
关键字:专家,多头,语义,模型,语言
文章来源:机器之心
内容字数:7757字

内容摘要:


机器之心报道
编辑:Panda WMH-MoE 能优化几乎所有专家,实现起来非常简单。混合专家(MoE)是个好方法,支持着现在一些非常优秀的大模型,比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。
稀疏混合专家(SMoE)可在不显著增加训练和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是一个 SMoE 模型,其包含 8 个专家(共 7B 参数),而其表现却可以超过或比肩 LLaMA-2 70B 和 GPT-3.5。
但是,它也有两个问题。一是专家激活率低 —— 也就是搞不好会出现下图这种情况:具体来说,就是在优化时只有一小部分专家会被激活,如图 1a 所示(8.33% 的激活率),这会导致在学习应对复杂任务的大量专家时,会出现性能次优和效果不佳的问题。二是无法细粒度地分析单个 token 的多重语义概念,比如多义词和具有多重细节的图块。
近日,微软研究院和清华大学提出了多头混合专家(MH-MoE)。顾名思义,MH-MoE 采用了多头机制,可将每个输入 token 分成多个子 token。然后将这些子 token 分配给一组多样化的专家


原文链接:微软让MoE长出多个头,大幅提升专家激活率

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...