32专家MoE大模型免费商用！性能全面对标Llama3，单token推理消耗仅5.28%

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：32专家MoE大模型免费商用！性能全面对标Llama3，单token推理消耗仅5.28%
关键字：模型,专家,浪潮,数据,信息
文章来源：量子位
内容字数：0字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAI每个token只需要5.28%的算力，精度就能全面对标Llama 3。
开源大模型，再添一位重量级选手——
来自浪潮信息的32专家MoE模型，源2.0-M32。
不仅拥有极高的回报投入比，而且全面开放，训练代码和模型权重都可任意下载，商业使用也免费、无需授权。
那么，这到底是怎样的一款模型？
1/19算力消耗，性能对标Llama 3首先了解一下模型的基本信息，源2.0-M32模型采用MoE架构，专家数量为32，总参数量40B，激活专家数为2，激活参数量3.7B。
精度上，源2.0-M32在多个测评数据集上全面对标Llama3（70B，以下同），在MATH（数学竞赛）和ARC-C（科学推理）榜单还上超越了Llama3。
举个例子，在求解一道中文数学题目时，源2.0-M32能够用中文进行完整、准确作答，而Llama3虽然能理解中文题目，但回答时还是用了英文。
而且看一下Llama3的答案，虽然前面的过程也没什么问题，但最终得到的结果错得离谱，硬生生把一堆整数的和算出了小数点。
在实现与业界领先开源大模型性能相当的同时，在模型的训练、推理和

原文链接：32专家MoE大模型免费商用！性能全面对标Llama3，单token推理消耗仅5.28%