训练一次经历 419 次意外故障！英伟达 GPU 也差点玩不转 405B 模型，全靠 Meta 工程师后天救场！

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：训练一次经历 419 次意外故障！英伟达 GPU 也差点玩不转 405B 模型，全靠 Meta 工程师后天救场！
关键字：故障,模型,问题,集群,通信
文章来源：AI前线
内容字数：0字

内容摘要：

整理 | 华卫
最近，Meta 在一份研究报告中揭示了训练 Llama 3 405B 参数模型的重大挑战：该系统在包含 16384 个 Nvidia H100 GPU 的集群上运行，在训练期间平均每三个小时就发生一次故障， 54 天内经历了 419 次意外故障。
这些故障中，有一半以上的情况都归因于 GPU 及其高带宽内存（HBM3）。由于 GPU 训练任务的规模庞大和高度同步，Llama 3 很容易发生故障，且单个 GPU 故障就会中断整个训练过程，导致必须重新启动。
不过，据介绍，尽管存在这些问题，Llama 3 团队仍在支持自动化集群维护（例如固件和 Linux 内核升级）的同时，实现了超过 90% 的有效训练时间（有效训练时间是指实际用于有用训练的时间与经过时间的比例）。
正如一句古老的超级计算谚语所言，“大规模系统唯一可以确定的就是失败。”超级计算机是极其复杂的设备，使用数万个处理器、数十万个其他芯片和数百英里长的电缆。在复杂的超级计算机中，每隔几个小时出现故障是很正常的，而开发人员的主要诀窍就是确保系统在出现这种局部故障时仍能正常运行。58.7% 意外中断源于 GPU，

原文链接：训练一次经历 419 次意外故障！英伟达 GPU 也差点玩不转 405B 模型，全靠 Meta 工程师后天救场！