三个月建成“世界最大”Nvidia GPU 计算集群，马斯克：不够，还要再加10万个

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：三个月建成“世界最大”Nvidia GPU 计算集群，马斯克：不够，还要再加10万个
关键字：公告,模型,人工智能,芯片,工作
文章来源：AI前线
内容字数：0字

内容摘要：

整理 | 褚杏娟
9 月 2 日，马斯克发文称，其人工智能公司 xAI 的团队已经上线了一台被称为“Colossus”的训练集群，总共有 100000 个英伟达的 H100 GPU。
马斯克表示，他的团队花了 122 天才完成 Colossus 的上线过程。由于 xAI 在 6 月份才选定孟菲斯作为其所在地，因此 Colossus 的部署速度可以说是非常快的。马斯克表示，在接下来的几个月里，Colossus 的规模将扩大一倍，达到 200,000 个 GPU，其中 5 万个是更为先进的 H200。
一位 X 用户指出，这一发展的实际规模超过了迄今为止发布的每个主要模型。相比之下，OpenAI 最强大的模型才使用了 80000 个 GPU。
Nvidia 的 H200 是市场上最抢手的芯片之一，尽管最近被该公司于 2024 年 3 月推出的最新 Blackwell 芯片超越。相比之下，H200 配备 141 GB 的 HBM3E 内存和 4.8 TB/s 的带宽，Blackwell 的最高容量比 H200 高出 36.2%，总带宽高出 66.7%。
Nvidia 在 Colossus

原文链接：三个月建成“世界最大”Nvidia GPU 计算集群，马斯克：不够，还要再加10万个