AIGC动态欢迎阅读
原标题:Llama3训练集群揭秘,共24,576 个 GPU
关键字:集群,公司,基础设施,模型,网络
文章来源:AI范儿
内容字数:1996字
内容摘要:
点击上方蓝字关注我们“Meta 公司透露了其专为 AI 训练设计的先进硬件基础设施细节。这些集群包括 24,576 个 GPU,采用了创新的网络结构解决方案,为支持当前和未来的 AI 模型打下了坚实基础。Meta 公司日前揭示了其先进硬件基础设施的关键细节,这些硬件专门为 AI 训练而设计,Meta首席科学家Yann LeCun所指出的,重点之一是为 Llama 3 训练而设计。该公司披露了其拥有 24,576 个 GPU 的数据中心规模集群的内部机制,这些集群对支持当前和即将推出的 AI 模型至关重要,包括 Llama 3,以及 Llama 2 的后续版本。
这些集群代表了 Meta 公司在 AI 硬件领域的巨大投资,凸显了基础设施在塑造 AI 未来中的关键作用。这些集群的设计旨在支持 Meta 公司的长期愿景,即以开放和负责任的方式创建AGI,并致力于实现广泛可访问性。
根据最新进展,Meta 的 24,576-GPU 集群中部署了两种型号,每个集群配备不同的网络结构解决方案。其中一个集群采用了远程直接内存访问(RDMA)在收敛以太网(RoCE)网络结构上,而另一个则采用了 NVI
原文链接:Llama3训练集群揭秘,共24,576 个 GPU
联系作者
文章来源:AI范儿
作者微信:AI_Insights
作者简介:AI领域四大媒体之一。 智能未来,始于Prompt!
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...