专为训练Llama 3,Meta 4.9万张H100集群细节公布

AIGC动态9个月前发布 机器之心
16 0 0

专为训练Llama 3,Meta 4.9万张H100集群细节公布

AIGC动态欢迎阅读

原标题:专为训练Llama 3,Meta 4.9万张H100集群细节公布
关键字:集群,人工智能,性能,模型,网络
文章来源:机器之心
内容字数:5773字

内容摘要:


机器之心报道
机器之心编辑部只想知道 Llama 3 何时能来?生成式大模型给人工智能领域带来了重大变革,人们在看到实现通用人工智能(AGI)希望的同时,训练、部署大模型的算力需求也越来越高。
刚刚,Meta 宣布推出两个 24k GPU 集群(共 49152 个 H100),标志着 Meta 为人工智能的未来做出了一笔重大的投资。
这是 Meta 雄心勃勃的基础设施路线图中的一步。Meta 会持续扩大基础设施建设,到 2024 年底将包括 350000 个 NVIDIA H100 GPU,其计算能力将相当于近 600000 个 H100。
Meta 表示:「我们坚定致力于开放计算和开源。我们在 Grand Teton、OpenRack 和 PyTorch 之上构建了这些集群,并将继续推动整个行业的开放创新。我们会使用这种算力集群来训练 Llama 3。」
图灵奖得主、Meta 首席科学家 Yann LeCun 也发推强调了这一点。
Meta 分享了新集群在硬件、网络、存储、设计、性能和软件方面的详细信息。新集群将为各种人工智能工作负载获取高吞吐量和高可靠性。
集群概览
Meta 的长


原文链接:专为训练Llama 3,Meta 4.9万张H100集群细节公布

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...