首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

AIGC动态8个月前发布 量子位
26 0 0

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

AIGC动态欢迎阅读

原标题:首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%
关键字:模型,专家,参数,版本,团队
文章来源:量子位
内容字数:2852字

内容摘要:


克雷西 发自 凹非寺量子位 | 公众号 QbitAI开源MoE模型,终于迎来首位国产选手!
它的表现完全不输给密集的Llama 2-7B模型,计算量却仅有40%。
这个模型堪称19边形战士,特别是在数学和代码能力上对Llama形成了碾压。
它就是深度求索团队最新开源的160亿参数专家模型DeepSeek MoE。
除了性能上表现优异,DeepSeek MoE主打的就是节约计算量。
在这张表现-激活参数量图中,它“一枝独秀”地占据了左上角的大片空白区。
发布仅一天,DeepSeek团队在X上的推文就有大量转发关注。
JP摩根的机器学习工程师Maxime Labonne测试后也表示,DeepSeek MoE的chat版本表现要略胜于微软的“小模型”Phi-2。
同时,DeepSeek MoE还在GitHub上获得了300+星标,并登上了Hugging Face文本生成类模型排行榜的首页。
那么,DeepSeek MoE的具体表现究竟怎么样呢?
计算量减少60%DeepSeek MoE目前推出的版本参数量为160亿,实际激活参数量大约是28亿。
与自家的7B密集模型相比,二者在19个数据集上


原文链接:首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...