从零手搓MoE大模型,大神级教程来了

AIGC动态11个月前发布 量子位
38 0 0

从零手搓MoE大模型,大神级教程来了

AIGC动态欢迎阅读

原标题:从零手搓MoE大模型,大神级教程来了
关键字:门控,模型,专家,注意力,分数
文章来源:量子位
内容字数:2986字

内容摘要:


克雷西 发自 凹非寺量子位 | 公众号 QbitAI传说中GPT-4的“致胜法宝”——MoE(混合专家)架构,自己也能手搓了!
Hugging Face上有一位机器学神,分享了如何从头开始建立一套完整的MoE系统。
这个项目被作者叫做MakeMoE,详细讲述了从注意力构建到形成完整MoE模型的过程。
作者介绍,MakeMoE是受到OpenAI创始成员Andrej Karpathy的makemore启发并以之为基础编写的。
makemore是一个针对自然语言处理和机器学习的教学项目,意在帮助学习者理解并实现一些基本模型。
同样,MakeMoE也是在一步步的搭建过程中,帮助学习者更深刻地理解混合专家模型。
那么,这份“手搓攻略”具体都讲了些什么呢?
从头开始搭建MoE模型和Karpathy的makemore相比,MakeMoE用稀疏的专家混合体代替了孤立的前馈神经网络,同时加入了必要的门控逻辑。
同时,由于过程中需要用到ReLU激活函数,makemore中的默认初始化方式被替换成了Kaiming He方法。
想要创建一个MoE模型,首先要理解自注意力机制。
模型首先通过线性变换,将输入


原文链接:从零手搓MoE大模型,大神级教程来了

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...