被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通专家混合架构部署

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通专家混合架构部署
关键字：专家,模型,门控,网络,参数
文章来源：机器之心
内容字数：17299字

内容摘要：

选自 HuggingFace 博客
编译：赵阳本文将介绍 MoE 的构建模块、训练方法以及在使用它们进行推理时需要考虑的权衡因素。专家混合 (MoE) 是 LLM 中常用的一种技术，旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务，每个子任务都由专门的迷你模型或「专家」处理。
早些时候，有人爆料 GPT-4 是采用了由 8 个专家模型组成的集成系统。近日，Mistral AI 发布的 Mixtral 8x7B 同样采用这种架构，实现了非常不错的性能（传送门：一条磁力链接席卷 AI 圈，87GB 种子直接开源 8x7B MoE 模型）。
OpenAI 和 Mistral AI 的两波推力，让 MoE 一时间成为开放人工智能社区最热门的话题。
本文将介绍 MoE 的构建模块、训练方法以及在使用它们进行推理时需要考虑的权衡因素。混合专家架构简称 MoE，它的特点如下：
与稠密模型相比，预训练速度更快；
与参数数量相同的模型相比，推理速度更快；
因为要把所有专家模型都加载在内存中，所以需要大量显存；
在微调方面面临许多挑战，但最近在 MoE 指令微调方面

原文链接：被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通专家混合架构部署