1.6万块H100训Llama 3.1，每3小时故障1次！罪魁祸首竟是GPU和HBM3显存

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：1.6万块H100训Llama 3.1，每3小时故障1次！罪魁祸首竟是GPU和HBM3显存
关键字：故障,集群,问题,功耗,团队
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：庸庸好困
【新智元导读】在Meta的Llama 3.1训练过程中，其运行的1.6万个GPU训练集群每3小时就会出现一次故障，意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的。随着大模型的迭代，其GPU用量也在不断增长。
Meta的Llama 1使用了2028块GPU，而到了Llama 3.1 405B，这个数字变成了16384。
规模如此庞大的超算系统迎来了可靠性和运行方面的巨大挑战——
据Meta最近公布的研究显示，Llama 3.1训练持续了54天，在此期间集群遇到了419次意外组件故障，平均每3小时发生一次!
在一半的故障案例中，罪魁祸首正是英伟达的H100 GPU及其板载的HBM3内存。
在超算领域，有一句古老的谚语，「大规模系统唯一可以确定的事就是发生故障」。
一个由成千上万个处理器、数十万个其他芯片和数百英里的电缆组成的超算集群，是极其复杂的。这样复杂的系统不可避免地会发生故障，甚至以几个小时为间隔单位都很正常。
开发人员要做的是确保系统在这些局部故障的情况下仍然能够正常运行。
Meta已经为抵御故障对系统的影响而耗费了不少精力，马斯

原文链接：1.6万块H100训Llama 3.1，每3小时故障1次！罪魁祸首竟是GPU和HBM3显存