AIGC动态欢迎阅读
原标题:有钱买卡还不够,10万卡H100集群有多难搭?一文解析算力集群技术要点
关键字:集群,交换机,网络,机架,节点
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:乔杨 好困
【新智元导读】在英伟达市值猛涨、各家科技巨头囤芯片的热潮中,我们往往会忽视GPU芯片是如何转变为数据中心算力的。最近,一篇SemiAnalysis的技术文章就深入解读了10万卡H100集群的构建过程。如火如荼的AI竞争中,「算力之战」同样热火朝天。
包括但不限于OpenAI、微软、xAI和Meta在内的多个头部公司都在争相建立超过10万卡的GPU集群,在这个规模上,仅仅是服务器的成本就超过40亿美元,还要受到数据中心容量和电力不足等多项因素的限制。
我们可以做一个简单的估算,一个10万卡集群每年耗电量约为1.59太瓦时(terawatt·h,即10e9千瓦时),按照美国电力的标准费率0.78美元/千瓦时,每年的用电成本就达到了1.24亿美元。
为了说明10万个GPU集群的强大计算能力,OpenAI在训练GPT-4时使用了大约2.15e25 BF16 FLOP(21.5百万亿ExaFLOP),在大约2万个A100上进行了90到100天的训练,峰值吞吐量只有6.28 ExaFLOPS。
若使用10万个H100代替A100,峰值将飙升至198/99 FP8/FP
原文链接:有钱买卡还不够,10万卡H100集群有多难搭?一文解析算力集群技术要点
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...