混合专家模型Mixtral-8x7B模型挖坑指北

AIGC动态11个月前发布 算法邦
31 0 0

混合专家模型Mixtral-8x7B模型挖坑指北

AIGC动态欢迎阅读

原标题:混合专家模型Mixtral-8x7B模型挖坑指北
关键字:模型,专家,效果,权重,测试
文章来源:算法邦
内容字数:9096字

内容摘要:


01前言MistralAI很高冷的给开源社区扔了一条磁力链,基于Mixture of Experts的混合专家模型Mixtral-8x7B和指令微调的Mixtral-8x7B-Instruct来了。此前曾爆料GPT4就是基于MoE技术的大模型,MistralAI证明通过不到8个7B的参数量,不到2个7B模型的计算量,就能超越LLaMA 2 70B的效果,甚至部分超越了GPT-3.5的水平,随即这两个模型引爆社交网络。截至目前,官网展示了Mixtral-8x7B的模型效果:图1. Mistral 8x7B超越LLaMA 2 70B和GPT-3.5模型的命名方式也充满野心, 新的7B模型只叫了个小小杯,效果这么好的8x7B MoE模型叫了个小杯,而在La plateforme中可以申请调用一个中杯模型的API(也许是8x13b、8x34B?),推测大杯和超大杯应该也在路上了。假的效果对比图2.真实的小小杯-小杯-中杯效果对比
02结构介绍Mixtral-8x7B和LLaMA结构唯一的区别,在于将MLP layer复制成了8个expert layers并在一起,通过一个gate layer,


原文链接:混合专家模型Mixtral-8x7B模型挖坑指北

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:「算法邦」,隶属于智猩猩,关注大模型、生成式AI、计算机视觉三大领域的研究与开发,提供技术文章、讲座、在线研讨会。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...