深度揭秘爆火MoE！GPT-4关键架构，成开源模型逆袭锏

AIGC动态2年前 (2023)发布新智元

深度揭秘爆火MoE！GPT-4关键架构，成开源模型逆袭杀手锏

AIGC动态欢迎阅读

原标题：深度揭秘爆火MoE！GPT-4关键架构，成开源模型逆袭锏

文章来源：新智元

内容字数：7066字

内容摘要：新智元报道编辑：编辑部【新智元导读】上周末，Mistral甩出的开源MoE大模型，震惊了整个开源社区。MoE究竟是什么？它又是如何提升了大语言模型的性能？Mistral上周末丢出的磁力链接震惊了开源圈子，这个7B×8E的开源MoE大模型性能已经到达了LLaMA2 70B的级别！而根据Jim Fan猜测，如果Mistral内部训练了34B×8E或者甚至100B+×8E级别的模型，那他们的能力很有可能已经无限接近GPT-4了。而在之前对于GPT-4结构的曝料中，大部分的信息也指向GPT-4很可能是由8个或者是16个MoE构成。为什么MoE能成为高性能大模型的必选项？简单来说，MoE是一种神经网络架构设计，在Transformer模块中集成了专家/模型层。当数据流经MoE层时，每个输入token都会动态路由到专家子模型进行处理。当每个专家专门从事特定任务时，这种方法可以实现更高效的计算并获得更好…

原文链接：点此阅读原文：深度揭秘爆火MoE！GPT-4关键架构，成开源模型逆袭锏