评测超Llama2，混合专家模型（MoE）会是大模型新方向吗？

AIGC动态2年前 (2023)发布 Founder Park

AIGC动态欢迎阅读

原标题：评测超Llama2，混合专家模型（MoE）会是大模型新方向吗？
关键字：模型,专家,解读,政策,门控
文章来源：Founder Park
内容字数：12970字

内容摘要：

混合专家模型（MoE）成为最近关注的热点。
先是 Reddit 上一篇关于 GPT-4 结构的猜测帖，暗示了 GPT-4 可能是由 16 个子模块组成的专家模型（MoE）的混合体。据说，这 16 个子模块中的每一个 MoE 都有 1110 亿个参数（作为参考，GPT-3 有 1750 亿个参数）。尽管不能 100% 确定，但 GPT-4 是一个 MoE 组成的集群这个事很可能是真的。
然后是法国 AI 公司 MistralAI 发布了全球首个基于混合专家技术的大模型 Mistral-8x7B-MoE，是 8 个 70 亿参数规模大模型的混合。
主要特点如下：
它可以非常优雅地处理 32K 上下文数据；
除了英语外，在法语、德语、意大利语和西班牙语表现也很好；
在代码能力上表现很强；
指令微调后 MT-Bench 的得分 8.3 分（GPT-3.5 是 8.32、LLaMA2 70B 是 6.86）；
Mistral-7B×8-MoE 是首个被证明有效的开源的 MoE LLM，相比于早期的 Switch Transformer、GLaM 等研究，Mistral-7B×8-MoE 证明了

原文链接：评测超Llama2，混合专家模型（MoE）会是大模型新方向吗？