10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

AIGC动态9个月前发布 量子位
13 0 0

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

AIGC动态欢迎阅读

原标题:10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观
关键字:模型,数据,嘉宾,峰会,博士
文章来源:量子位
内容字数:3602字

内容摘要:


丰色 发自 凹非寺量子位 | 公众号 QbitAI“只需”10万美元,训练Llama-2级别的大模型。
尺寸更小但性能不减的MoE模型来了:
它叫JetMoE,来自MIT、普林斯顿等研究机构。
性能妥妥超过同等规模的Llama-2。
△贾扬清转发要知道,后者可是数十亿美元级别的投入成本。
JetMoE发布即完全开源,且学术界友好:仅使用公开数据集和开源代码,用消费级GPU就能进行微调。
不得说,大模型的打造成本,真的比人们想的要便宜更多了。
Ps. Stable Diffusion前老板Emad也点了赞:
10万美刀实现Llama-2性能JetMoE启发于ModuleFormer的稀疏激活架构。
(ModuleFormer,一种基于稀疏专家混合(SMoE)的模块化架构,可提高大模型效率和灵活性,去年6月提出)
它的注意力层中仍然使用了MoE:
80亿参数的JetMoE一共有24个区块,每块包含2个MoE层,分别是注意力头混合 (MoA) 和MLP专家混合 (MoE)。
每个MoA和MoE层又有8个专家,每次输入token激活2个。
JetMoE-8B使用公开数据集中的1.25T tok


原文链接:10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...