从零手搓MoE大模型，大神级教程来了

AIGC动态2年前 (2024)发布量子位

556 0 0

从零手搓MoE大模型，大神级教程来了

AIGC动态欢迎阅读

原标题：从零手搓MoE大模型，大神级教程来了
关键字：门控,模型,专家,注意力,分数
文章来源：量子位
内容字数：2986字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAI传说中GPT-4的“致胜法宝”——MoE（混合专家）架构，自己也能手搓了！
Hugging Face上有一位机器学神，分享了如何从头开始建立一套完整的MoE系统。
这个项目被作者叫做MakeMoE，详细讲述了从注意力构建到形成完整MoE模型的过程。
作者介绍，MakeMoE是受到OpenAI创始成员Andrej Karpathy的makemore启发并以之为基础编写的。
makemore是一个针对自然语言处理和机器学习的教学项目，意在帮助学习者理解并实现一些基本模型。
同样，MakeMoE也是在一步步的搭建过程中，帮助学习者更深刻地理解混合专家模型。
那么，这份“手搓攻略”具体都讲了些什么呢？
从头开始搭建MoE模型和Karpathy的makemore相比，MakeMoE用稀疏的专家混合体代替了孤立的前馈神经网络，同时加入了必要的门控逻辑。
同时，由于过程中需要用到ReLU激活函数，makemore中的默认初始化方式被替换成了Kaiming He方法。
想要创建一个MoE模型，首先要理解自注意力机制。
模型首先通过线性变换，将输入

原文链接：从零手搓MoE大模型，大神级教程来了

联系作者

文章来源：量子位
作者微信：QbitAI
作者简介：追踪人工智能新趋势，关注科技行业新突破

# AIGC动态 # 专家 # 分数 # 模型 # 注意力 # 门控

© 版权声明

文章版权归作者所有，未经允许请勿转载。

蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...