AIGC动态欢迎阅读
原标题:混合专家模型Mixtral-8x7B模型挖坑指北
关键字:模型,专家,效果,权重,测试
文章来源:算法邦
内容字数:9096字
内容摘要:
01前言MistralAI很高冷的给开源社区扔了一条磁力链,基于Mixture of Experts的混合专家模型Mixtral-8x7B和指令微调的Mixtral-8x7B-Instruct来了。此前曾爆料GPT4就是基于MoE技术的大模型,MistralAI证明通过不到8个7B的参数量,不到2个7B模型的计算量,就能超越LLaMA 2 70B的效果,甚至部分超越了GPT-3.5的水平,随即这两个模型引爆社交网络。截至目前,官网展示了Mixtral-8x7B的模型效果:图1. Mistral 8x7B超越LLaMA 2 70B和GPT-3.5模型的命名方式也充满野心, 新的7B模型只叫了个小小杯,效果这么好的8x7B MoE模型叫了个小杯,而在La plateforme中可以申请调用一个中杯模型的API(也许是8x13b、8x34B?),推测大杯和超大杯应该也在路上了。假的效果对比图2.真实的小小杯-小杯-中杯效果对比
02结构介绍Mixtral-8x7B和LLaMA结构唯一的区别,在于将MLP layer复制成了8个expert layers并在一起,通过一个gate layer,
联系作者
文章来源:算法邦
作者微信:allplusai
作者简介:「算法邦」,隶属于智猩猩,关注大模型、生成式AI、计算机视觉三大领域的研究与开发,提供技术文章、讲座、在线研讨会。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...