杀疯了的开源专家模型 Mixtral 8x7B 论文公开啦！

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：杀疯了的开源专家模型 Mixtral 8x7B 论文公开啦！
关键字：专家,模型,显著特征,门控,基准
文章来源：夕小瑶科技说
内容字数：4894字

内容摘要：

夕小瑶科技说原创作者 | 付奶茶、王二狗上个月法国初创公司 Mistral AI 开源的一个8x7B MoE模型Mixtral 8x7B引爆了AI社区。
一是因为它的性能击败了LLama2和GPT-3.5，二是因为，Mixtral是一个专家混合模型（Mixture-of-Experts model，MoE），使用了传闻中 OpenAI 用于GPT-4的架构，但是参数相比GPT-4要小很多，堪称是缩小版“GPT-4”。
而就在这几天，Mixtral 8x7B发布了模型背后的论文，下面就带大家一起来深入了解 Mixtral 8x7B的独特之处。
论文题目:
Mixtral of Experts
论文链接:
https://arxiv.org/abs/2401.04088
Github代码:
https://github.com/mistralai/mistral-src
官方主页：
https://mistral.ai/news/mixtral-of-experts/
模型架构Mixtral架构的显著特征是每层由8个前馈块组成，这些“专家层”取代了传统Transformer模型中的前馈网

原文链接：杀疯了的开源专家模型 Mixtral 8x7B 论文公开啦！