一条磁力链爆全网,Mixtral 8x7B论文来了!碾压Llama 2 70B,每token仅需激活13B参数

AIGC动态12个月前发布 新智元
9 0 0

一条磁力链爆全网,Mixtral 8x7B论文来了!碾压Llama 2 70B,每token仅需激活13B参数

AIGC动态欢迎阅读

原标题:一条磁力链爆全网,Mixtral 8x7B论文来了!碾压Llama 2 70B,每token仅需激活13B参数
关键字:模型,专家,研究人员,样本,报告
文章来源:新智元
内容字数:9053字

内容摘要:


新智元报道编辑:桃子 好困
【新智元导读】爆火社区的Mixtral 8x7B模型,今天终于放出了arXiv论文!所有模型细节全部公开了。还记得一个月前,Mistral AI突然公布的一条磁力链接,引爆了整个AI社区。
紧接着,Mixtral 8x7B的技术细节随之公布,其表现不仅优于Llama 2 70B,而且推理速度提高了整整6倍。
甚至,它在大多数标准基准测试上与GPT-3.5打平,甚至略胜一筹。
今天,这家法国初创正式发布了Mixtral 8x7B混合专家模型(Mixtral of Experts)的论文。
论文地址:https://arxiv.org/abs/2401.04088
网友纷纷表示,最好的开源模型论文终于发布了。
具体技术细节,我们一探究竟。
架构Mixtral是一个稀疏的混合专家网络,而且是一个纯解码器模型。其中前馈块从一组8个不同的参数组中进行选择。
在每一层,对于每个token,路由网络都会选择其中的两个组「专家」来处理token,并将它们的输出相加。
这项技术不仅增加了模型的参数数量,而且控制了成本和延迟,因为模型每处理一个token只会使用部分参数。


原文链接:一条磁力链爆全网,Mixtral 8x7B论文来了!碾压Llama 2 70B,每token仅需激活13B参数

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...