【深度万文】10 万卡 H100 集群的尽头……

AIGC动态1年前 (2024)发布智猩猩AGI

AIGC动态欢迎阅读

原标题：【深度万文】10 万卡 H100 集群的尽头……
关键字：网络,集群,交换机,机架,节点
文章来源：智猩猩AGI
内容字数：0字

内容摘要：

7月25日上午10点，中国科学技术大学与微软亚洲研究院联合培养博士生张博文将在智猩猩直播讲解微软亚洲研究院开源成果GaussianCube，主题为《结构化3DGS为高质量3D生成带来新思路》。欢迎扫名~GPT-4 在约 2 万块 A100 上训练 90-100 天，如果利用 10 万卡的 H100 集群，则仅仅需要 4 天时间。微软/OpenAI、Meta、xAI 都在集中建设 10 万卡 H100 集群，单是硬件投入就高达 40 亿美金，单集群就需要 150 MW 的功耗，每年的电力成本 1.239 亿美金，约占硬件投入成本的 3%。
10 万卡 H100 集群的尽头还远不是电力。在算力组网时，为了避免缴纳更多的英伟达税，越来越多的头部客户正在摒弃 Infiniband 方案，而选择以太网方案。除了在初始硬件投入就能节约 4 亿美金之外，每年还能进一步节约 400多万美金的电费。
有人认为，自 GPT-4 发布以来，LLM 的能力便一直停滞不前。之所以如此，是因为没有人能够大规模地提高专用于单个模型训练的算力。已发布的模型的体量与 GPT-4 大致相当（约 2×1025 FLOP

原文链接：【深度万文】10 万卡 H100 集群的尽头……