混合专家模型Mixtral-8x7B模型挖坑指北

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：混合专家模型Mixtral-8x7B模型挖坑指北
关键字：模型,专家,效果,权重,测试
文章来源：算法邦
内容字数：9096字

内容摘要：

01前言MistralAI很高冷的给开源社区扔了一条磁力链，基于Mixture of Experts的混合专家模型Mixtral-8x7B和指令微调的Mixtral-8x7B-Instruct来了。此前曾爆料GPT4就是基于MoE技术的大模型，MistralAI证明通过不到8个7B的参数量，不到2个7B模型的计算量，就能超越LLaMA 2 70B的效果，甚至部分超越了GPT-3.5的水平，随即这两个模型引爆社交网络。截至目前，官网展示了Mixtral-8x7B的模型效果：图1. Mistral 8x7B超越LLaMA 2 70B和GPT-3.5模型的命名方式也充满野心，新的7B模型只叫了个小小杯，效果这么好的8x7B MoE模型叫了个小杯，而在La plateforme中可以申请调用一个中杯模型的API（也许是8x13b、8x34B？），推测大杯和超大杯应该也在路上了。假的效果对比图2.真实的小小杯-小杯-中杯效果对比
02结构介绍Mixtral-8x7B和LLaMA结构唯一的区别，在于将MLP layer复制成了8个expert layers并在一起，通过一个gate layer，

原文链接：混合专家模型Mixtral-8x7B模型挖坑指北