10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观
关键字：模型,数据,嘉宾,峰会,博士
文章来源：量子位
内容字数：3602字

内容摘要：

丰色发自凹非寺量子位 | 公众号 QbitAI“只需”10万美元，训练Llama-2级别的大模型。
尺寸更小但性能不减的MoE模型来了：
它叫JetMoE，来自MIT、普林斯顿等研究机构。
性能妥妥超过同等规模的Llama-2。
△贾扬清转发要知道，后者可是数十亿美元级别的投入成本。
JetMoE发布即完全开源，且学术界友好：仅使用公开数据集和开源代码，用消费级GPU就能进行微调。
不得说，大模型的打造成本，真的比人们想的要便宜更多了。
Ps. Stable Diffusion前老板Emad也点了赞：
10万美刀实现Llama-2性能JetMoE启发于ModuleFormer的稀疏激活架构。
（ModuleFormer，一种基于稀疏专家混合(SMoE)的模块化架构，可提高大模型效率和灵活性，去年6月提出）
它的注意力层中仍然使用了MoE：
80亿参数的JetMoE一共有24个区块，每块包含2个MoE层，分别是注意力头混合 (MoA) 和MLP专家混合 (MoE）。
每个MoA和MoE层又有8个专家，每次输入token激活2个。
JetMoE-8B使用公开数据集中的1.25T tok

原文链接：10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观