AIGC动态欢迎阅读
原标题:MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
关键字:模型,架构,参数,报告,高效
文章来源:AI科技评论
内容字数:13708字
内容摘要:
在高效训练与高显存占用之间横跳的 MoE,更像是一门妥协的艺术。作者|房晓楠
编辑|陈彩娴
MoE 会成为未来大模型训练的新方向吗?
这是人们发现 MoE 架构可以用于大模型训练、推理后,发出的一声疑问。
MoE(Mixture of Experts),又称「混合专家」,本质是一种模块化的稀疏激活。怎么理解?
当前的大模型主要分为稠密(dense)模型与稀疏(sparse)模型,两者的区别主要在于模型进行计算时,被调用的参数数量,参数全部生效使用的是稠密模型,比如 OpenAI 从第一代到第三代即 GPT-1、 GPT-2、 GPT-3,以及 Meta 的 Llama 系列都是稠密模型;只使用其中一部分参数的是稀疏模型,比如基于 MoE 架构的模型,而这些被使用的参数称为「激活参数」。
具体从网络结构来看,目前主流的大模型大都是基于 Transformer 架构,由多个 Transformer Block 叠加组成,在每一个 Transformer Block 内部都会包括两层结构,一层是多头自注意力(Multi-Head Self-Attention),另一层是位置前馈神经网络(Po
原文链接:MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
联系作者
文章来源:AI科技评论
作者微信:aitechtalk
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...