探秘马斯克全球最大AI集群Colossus:10万张英伟达 H100,122天建成

AIGC动态2个月前发布 AI范儿
18 0 0

探秘马斯克全球最大AI集群Colossus:10万张英伟达 H100,122天建成

AIGC动态欢迎阅读

原标题:探秘马斯克全球最大AI集群Colossus:10万张英伟达 H100,122天建成
关键字:机架,热交换器,集群,数据中心,服务器
文章来源:AI范儿
内容字数:0字

内容摘要:


今天,我们将发布 xAI Colossus 超级计算机之旅。对于那些听说过埃隆·马斯克的 xAI 在孟菲斯建造巨型 AI 超级计算机的人来说,这就是那个集群。这个价值数十亿美元的 AI 集群拥有 100,000 个 NVIDIA H100 GPU,不仅规模大,而且建造速度快。仅用 122 天,团队就建造了这个巨型集群。今天,我们将带您参观大楼内部。
xAI 的超微液冷机架Colossus(巨人) 的基本构建模块是 Supermicro (超微)液冷机架。它由 8 台 4U 服务器组成,每台服务器配备 8 个 NVIDIA H100,每台机架总共有 64 个 GPU。8 台这样的 GPU 服务器加上一台Supermicro 冷却液分配单元 (CDU)和相关硬件构成了一个 GPU 计算机架。
XAI 巨人数据中心的超微液冷节点低角度视图
这些机架以八个为一组排列,共有 512 个 GPU,并通过网络连接形成迷你集群,融入到这个更大的系统中。
XAI 巨人数据中心的超微 4U 通用 GPU 液冷服务器
在这里,xAI 采用了超微的 4U 通用 GPU 系统。这些服务器是目前市场上最先进的人工


原文链接:探秘马斯克全球最大AI集群Colossus:10万张英伟达 H100,122天建成

联系作者

文章来源:AI范儿
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...