首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%
关键字：模型,专家,参数,版本,团队
文章来源：量子位
内容字数：2852字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAI开源MoE模型，终于迎来首位国产选手！
它的表现完全不输给密集的Llama 2-7B模型，计算量却仅有40%。
这个模型堪称19边形战士，特别是在数学和代码能力上对Llama形成了碾压。
它就是深度求索团队最新开源的160亿参数专家模型DeepSeek MoE。
除了性能上表现优异，DeepSeek MoE主打的就是节约计算量。
在这张表现-激活参数量图中，它“一枝独秀”地占据了左上角的大片空白区。
发布仅一天，DeepSeek团队在X上的推文就有大量转发关注。
JP摩根的机器学习工程师Maxime Labonne测试后也表示，DeepSeek MoE的chat版本表现要略胜于微软的“小模型”Phi-2。
同时，DeepSeek MoE还在GitHub上获得了300+星标，并登上了Hugging Face文本生成类模型排行榜的首页。
那么，DeepSeek MoE的具体表现究竟怎么样呢？
计算量减少60%DeepSeek MoE目前推出的版本参数量为160亿，实际激活参数量大约是28亿。
与自家的7B密集模型相比，二者在19个数据集上

原文链接：首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%