从零实现一个MOE（专家混合模型）

AIGC动态1年前 (2024)发布算法邦

从零实现一个MOE（专家混合模型）

AIGC动态欢迎阅读

原标题：从零实现一个MOE（专家混合模型）
关键字：专家,代码,门控,部分,中国科学院
文章来源：算法邦
内容字数：0字

内容摘要：

7月11日19点，「智猩猩自动驾驶新青年讲座」第36讲将开讲，主讲理想汽车最新成果：基于MLLM的闭环规划智能体PlanAgent，由理想汽车实习研究员、中国科学院自动化研究所在读博士郑宇鹏主讲，主题为《面向自动驾驶的3D密集描述与闭环规划智能体》。扫码预约视频号直播~原文：https://zhuanlan.zhihu.com/p/701777558
01什么是混合模型（MOE）MOE主要由两个关键点组成：
一是将传统Transformer中的FFN（前馈网络层）替换为多个稀疏的专家层（Sparse MoE layers）。每个专家本身是一个的神经网络，实际应用中，这些专家通常是前馈网络 (FFN)，但也可以是更复杂的网络结构。
二是门控网络或路由：此部分用来决定输入的token分发给哪一个专家。
可能有对FFN（前馈网络层）不太熟悉的小伙伴可以看一下下面的代码及图例，很简单就是一个我们平时常见的结构。
class FeedForward(nn.Module): def __init__(self, dim_vector, dim_hidden, dropout=0.1):

原文链接：从零实现一个MOE（专家混合模型）