AIGC动态欢迎阅读
原标题:打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉
关键字:华为,专家,路由,门控,报告
文章来源:机器之心
内容字数:6726字
内容摘要:
机器之心专栏
机器之心编辑部2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能,稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。MoE 的广泛应用,使得在计算成本相对不变的条件下,模型容量能够得到显著扩展。此特性无疑使得 MoE 成为推动 LLM 发展的关键技术。
MoE 设计的初衷,是使模型的学习更加 “术业有专攻”,其有效性已得到业界肯定。然而现有 MoE 架构训练中的弊端也逐渐凸显,主要包括:专家负载失衡、专家内样本混杂而专家间同质化现象严重、额外的通信开销等等。
为了缓解现有 MoE 普遍存在的训练效率与性能瓶颈,专精于高性能计算、LLM 训练加速的华为 GTS AI 计算 Lab的研究团队提出了名为 LocMoE 的全新 MoE 架构,从路由机制角度出发,以期降低稀疏 LLM 训练成本的同时,提升其性能。论文链接:https://arxiv.org/abs/2401.13920
论文简介
在
原文链接:打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...