马斯克烧60亿美元难题，国内大厂有解？开源MoE模算效率黑马登场，3.7B参数单挑Llama 3-70B

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：马斯克烧60亿美元难题，国内大厂有解？开源MoE模算效率黑马登场，3.7B参数单挑Llama 3-70B
关键字：模型,专家,门控,数据,代码
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】马斯克最近哭穷表示，xAI需要部署10万个H100才能训出Grok 3，影响全球的大模型算力荒怎么解？昨天开源的这款MoE大模型，只用了1/19算力、1/19激活参数，性能就直接全面对标Llama 3-70B！如今，想训个SOTA的大模型，不仅缺数据和算力，甚至连电都不够用了。
最近马斯克就公开表示，因为苦于买不到足够的芯片，xAI只能推迟Gork 2的训练和发布。
Grok 3及更高版本，甚至需要10万个H100，按每台H100售价3万美元来算，仅芯片就要花掉28亿美元。
而且在未来几年，xAI在云服务器上可能就要花费100亿美元，直接逼得马斯克自谋生路，开建起自己的「超级计算工厂」。
那么问题来了，有没有一种可能，只用更少的算力，就让大模型实现更高的性能？
就在5月28日，浪潮信息给业界打了个样——全面开源MoE模型「源2.0-M32」！
简单来说，源2.0-M32是一个包含了32个专家（Expert）的混合专家模型，总参数量达到了400亿，但激活参数仅37亿。
开源项目地址：https://github.com/IEIT-Yuan/Yuan

原文链接：马斯克烧60亿美元难题，国内大厂有解？开源MoE模算效率黑马登场，3.7B参数单挑Llama 3-70B