有钱买卡还不够，10万卡H100集群有多难搭？一文解析算力集群技术要点

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：有钱买卡还不够，10万卡H100集群有多难搭？一文解析算力集群技术要点
关键字：集群,交换机,网络,机架,节点
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：乔杨好困
【新智元导读】在英伟达市值猛涨、各家科技巨头囤芯片的热潮中，我们往往会忽视GPU芯片是如何转变为数据中心算力的。最近，一篇SemiAnalysis的技术文章就深入解读了10万卡H100集群的构建过程。如火如荼的AI竞争中，「算力之战」同样热火朝天。
包括但不限于OpenAI、微软、xAI和Meta在内的多个头部公司都在争相建立超过10万卡的GPU集群，在这个规模上，仅仅是服务器的成本就超过40亿美元，还要受到数据中心容量和电力不足等多项因素的限制。
我们可以做一个简单的估算，一个10万卡集群每年耗电量约为1.59太瓦时（terawatt·h，即10e9千瓦时），按照美国电力的标准费率0.78美元/千瓦时，每年的用电成本就达到了1.24亿美元。
为了说明10万个GPU集群的强大计算能力，OpenAI在训练GPT-4时使用了大约2.15e25 BF16 FLOP（21.5百万亿ExaFLOP），在大约2万个A100上进行了90到100天的训练，峰值吞吐量只有6.28 ExaFLOPS。
若使用10万个H100代替A100，峰值将飙升至198/99 FP8/FP

原文链接：有钱买卡还不够，10万卡H100集群有多难搭？一文解析算力集群技术要点