Meta公开 Llama-3基础训练设施：使用了49,000个H100

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：Meta公开 Llama-3基础训练设施：使用了49,000个H100
关键字：集群,报告,解读,模型,解决方案
文章来源：AI前线
内容字数：3717字

内容摘要：

来源 | 授权转载自AIGC开放社区（公众号ID:AIGCOPEN）
3 月 13 日，社交、科技巨头 Meta 在官网公布了两个全新的 24K H100 GPU 集群（49,152 个），专门用于训练大模型 Llama-3。
此外，Llama-3 使用了 RoCEv2 网络，基于 Tectonic/Hammerspace 的 NFS/FUSE 网络存储，继续使用了 PyTorch 机器学习库。
从训练进度来看，估计 Llama-3 最快将于 4 月末或 5 月中旬上线。受 Sora 影响，很可能是一个多模态模型，并且会继续开源。
Meta 表示，预计到 2024 年底，将拥有 600,000 个 H100 的算力。
Meta首席科学家确认Meta 庞大的 AI 算力集群Meta 作为全球市值最高的科技公司之一，对 AI 的投入一直非常大，致力于构建造福全人类的 AGI（通用人工智能）。
早在 2022 年 1 月 24 日，Meta 首次公布了 AI 研究超级集群 (RSC) 的详细信息，拥有 16,000 个英伟达 A100 GPU。
该集群在开发全球最受欢迎的类 ChatGPT

原文链接：Meta公开 Llama-3基础训练设施：使用了49,000个H100