AIGC动态欢迎阅读
原标题:马斯克烧60亿美元难题,国内大厂有解?开源MoE模算效率黑马登场,3.7B参数单挑Llama 3-70B
关键字:模型,专家,门控,数据,代码
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:编辑部
【新智元导读】马斯克最近哭穷表示,xAI需要部署10万个H100才能训出Grok 3,影响全球的大模型算力荒怎么解?昨天开源的这款MoE大模型,只用了1/19算力、1/19激活参数,性能就直接全面对标Llama 3-70B!如今,想训个SOTA的大模型,不仅缺数据和算力,甚至连电都不够用了。
最近马斯克就公开表示,因为苦于买不到足够的芯片,xAI只能推迟Gork 2的训练和发布。
Grok 3及更高版本,甚至需要10万个H100,按每台H100售价3万美元来算,仅芯片就要花掉28亿美元。
而且在未来几年,xAI在云服务器上可能就要花费100亿美元,直接逼得马斯克自谋生路,开建起自己的「超级计算工厂」。
那么问题来了,有没有一种可能,只用更少的算力,就让大模型实现更高的性能?
就在5月28日,浪潮信息给业界打了个样——全面开源MoE模型「源2.0-M32」!
简单来说,源2.0-M32是一个包含了32个专家(Expert)的混合专家模型,总参数量达到了400亿,但激活参数仅37亿。
开源项目地址:https://github.com/IEIT-Yuan/Yuan
原文链接:马斯克烧60亿美元难题,国内大厂有解?开源MoE模算效率黑马登场,3.7B参数单挑Llama 3-70B
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。