杀疯了的开源专家模型 Mixtral 8x7B 论文公开啦!

杀疯了的开源专家模型 Mixtral 8x7B 论文公开啦!

AIGC动态欢迎阅读

原标题:杀疯了的开源专家模型 Mixtral 8x7B 论文公开啦!
关键字:专家,模型,显著特征,门控,基准
文章来源:夕小瑶科技说
内容字数:4894字

内容摘要:


夕小瑶科技说 原创作者 | 付奶茶、王二狗上个月法国初创公司 Mistral AI 开源的一个8x7B MoE模型Mixtral 8x7B引爆了AI社区。
一是因为它的性能击败了LLama2和GPT-3.5,二是因为,Mixtral是一个专家混合模型(Mixture-of-Experts model,MoE),使用了传闻中 OpenAI 用于GPT-4的架构,但是参数相比GPT-4要小很多,堪称是缩小版“GPT-4”。
而就在这几天,Mixtral 8x7B发布了模型背后的论文,下面就带大家一起来深入了解 Mixtral 8x7B的独特之处。
论文题目:
Mixtral of Experts
论文链接:
https://arxiv.org/abs/2401.04088
Github代码:
https://github.com/mistralai/mistral-src
官方主页:
https://mistral.ai/news/mixtral-of-experts/
模型架构Mixtral架构的显著特征是每层由8个前馈块组成,这些“专家层”取代了传统Transformer模型中的前馈网


原文链接:杀疯了的开源专家模型 Mixtral 8x7B 论文公开啦!

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...