一条磁力链爆全网，Mixtral 8x7B论文来了！碾压Llama 2 70B，每token仅需激活13B参数

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：一条磁力链爆全网，Mixtral 8x7B论文来了！碾压Llama 2 70B，每token仅需激活13B参数
关键字：模型,专家,研究人员,样本,报告
文章来源：新智元
内容字数：9053字

内容摘要：

新智元报道编辑：桃子好困
【新智元导读】爆火社区的Mixtral 8x7B模型，今天终于放出了arXiv论文！所有模型细节全部公开了。还记得一个月前，Mistral AI突然公布的一条磁力链接，引爆了整个AI社区。
紧接着，Mixtral 8x7B的技术细节随之公布，其表现不仅优于Llama 2 70B，而且推理速度提高了整整6倍。
甚至，它在大多数标准基准测试上与GPT-3.5打平，甚至略胜一筹。
今天，这家法国初创正式发布了Mixtral 8x7B混合专家模型（Mixtral of Experts）的论文。
论文地址：https://arxiv.org/abs/2401.04088
网友纷纷表示，最好的开源模型论文终于发布了。
具体技术细节，我们一探究竟。
架构Mixtral是一个稀疏的混合专家网络，而且是一个纯解码器模型。其中前馈块从一组8个不同的参数组中进行选择。
在每一层，对于每个token，路由网络都会选择其中的两个组「专家」来处理token，并将它们的输出相加。
这项技术不仅增加了模型的参数数量，而且控制了成本和延迟，因为模型每处理一个token只会使用部分参数。
具

原文链接：一条磁力链爆全网，Mixtral 8x7B论文来了！碾压Llama 2 70B，每token仅需激活13B参数