OpenAI陷巨大算力荒，国内大厂抢先破局！打破单芯片限制，算力效率提升33%

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：OpenAI陷巨大算力荒，国内大厂抢先破局！打破单芯片限制，算力效率提升33%
关键字：模型,算法,效率,系统,集群
文章来源：新智元
内容字数：10018字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】一切计算皆AI已成为行业。大模型参数规模从千亿走向万亿，从单一走向MoE，对算力的需求愈加庞大。我们需要理清的是，单芯片所带来的算力驱动已无法满足LLM发展。国内AI不行，是因为芯片不行？
我们跟国外的差距，是因为和英伟达芯片的差距过大？
最近，圈内有许多这样的论调。
其实深挖下去，就会发现事实完全不是这样。即使是英伟达最先进的芯片，依然无法满足当下人工智能在算力上的需求。
随着模型参数量和数据量的增加，智慧不断涌现，我们对更大集群的需求，也更加迫切。无论是国外，还是在国内，大家离终点都很遥远。
算力≠芯片如今，大规模神经网络的训练现状是这样的。
新鲜出炉的8B和70B参数的Llama 3训练，需要24576块H100组成的集群。
小扎曾透露截止今年底，Meta将建成由35万块H100搭建的基础设施
而据称有1.8万亿参数的GPT-4，是在10000-25000张A100上完成了训练。
爆火的Sora训练参数量可能仅有30亿，爆料称，估计使用了4200-10500块H100训了1个月。
特斯拉FSD V12，则是在1000万个海量视频片段进行

原文链接：OpenAI陷巨大算力荒，国内大厂抢先破局！打破单芯片限制，算力效率提升33%