打破MoE训练效率与性能瓶颈，华为盘古稀疏大模型全新架构LocMoE出炉

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：打破MoE训练效率与性能瓶颈，华为盘古稀疏大模型全新架构LocMoE出炉
关键字：华为,专家,路由,门控,报告
文章来源：机器之心
内容字数：6726字

内容摘要：

机器之心专栏
机器之心编辑部2023 年 12 月，首个开源 MoE 大模型 Mixtral 8×7B 发布，在多种基准测试中，其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B，而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能，稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。MoE 的广泛应用，使得在计算成本相对不变的条件下，模型容量能够得到显著扩展。此特性无疑使得 MoE 成为推动 LLM 发展的关键技术。
MoE 设计的初衷，是使模型的学习更加 “术业有专攻”，其有效性已得到业界肯定。然而现有 MoE 架构训练中的弊端也逐渐凸显，主要包括：专家负载失衡、专家内样本混杂而专家间同质化现象严重、额外的通信开销等等。
为了缓解现有 MoE 普遍存在的训练效率与性能瓶颈，专精于高性能计算、LLM 训练加速的华为 GTS AI 计算 Lab的研究团队提出了名为 LocMoE 的全新 MoE 架构，从路由机制角度出发，以期降低稀疏 LLM 训练成本的同时，提升其性能。论文链接：https://arxiv.org/abs/2401.13920
论文简介
在

原文链接：打破MoE训练效率与性能瓶颈，华为盘古稀疏大模型全新架构LocMoE出炉