被OpenAI、Mistral AI带火的MoE是怎么回事?一文贯通专家混合架构部署

AIGC动态11个月前发布 机器之心
27 0 0

被OpenAI、Mistral AI带火的MoE是怎么回事?一文贯通专家混合架构部署

AIGC动态欢迎阅读

原标题:被OpenAI、Mistral AI带火的MoE是怎么回事?一文贯通专家混合架构部署
关键字:专家,模型,门控,网络,参数
文章来源:机器之心
内容字数:17299字

内容摘要:


选自 HuggingFace 博客
编译:赵阳本文将介绍 MoE 的构建模块、训练方法以及在使用它们进行推理时需要考虑的权衡因素。专家混合 (MoE) 是 LLM 中常用的一种技术,旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务,每个子任务都由专门的迷你模型或「专家」处理。
早些时候,有人爆料 GPT-4 是采用了由 8 个专家模型组成的集成系统。近日,Mistral AI 发布的 Mixtral 8x7B 同样采用这种架构,实现了非常不错的性能(传送门:一条磁力链接席卷 AI 圈,87GB 种子直接开源 8x7B MoE 模型)。
OpenAI 和 Mistral AI 的两波推力,让 MoE 一时间成为开放人工智能社区最热门的话题 。
本文将介绍 MoE 的构建模块、训练方法以及在使用它们进行推理时需要考虑的权衡因素。混合专家架构简称 MoE,它的特点如下:
与稠密模型相比,预训练速度更快;
与参数数量相同的模型相比,推理速度更快;
因为要把所有专家模型都加载在内存中,所以需要大量显存;
在微调方面面临许多挑战,但最近在 MoE 指令微调方面


原文链接:被OpenAI、Mistral AI带火的MoE是怎么回事?一文贯通专家混合架构部署

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...