Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱,气温波动都会影响吞吐量

AIGC动态3个月前发布 量子位
7 0 0

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱,气温波动都会影响吞吐量

AIGC动态欢迎阅读

原标题:Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱,气温波动都会影响吞吐量
关键字:集群,故障,问题,团队,模型
文章来源:量子位
内容字数:0字

内容摘要:


西风 发自 凹非寺量子位 | 公众号 QbitAI每3个小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首?
最近有人从Meta发布的92页超长Llama 3.1论文中发现了华点:
Llama 3.1在为期54天的预训练期间,经历了共466次任务中断。其中只有47次是计划内的,419次纯属意外,意外中78%已确认或怀疑是硬件问题导致。
而且GPU问题最严重,占了58.7%。
Llama 3.1 405模型是在一个含16384块Nvidia H100 80GB GPU集群上进行训练的。虽说针对大规模系统有句老话:唯一确定的就是会出故障。
但这一问题还是引起不少网友关注。
放慢速度,check一下产品吧。
老出故障,咋整?具体来看,在419次意外中断中,148 次(30.1%)是由各种GPU故障(包括NVLink故障)引起的,72次(17.2%)可以具体到是由HBM3内存故障引起。
鉴于H100的700W高功耗和热应力,出现这样的结果也并不意外。
有意思的是,54天内只有两次是CPU出现了故障。
除了GPU外的另一半故障由众多因素导致,比如软件Bug、网


原文链接:Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱,气温波动都会影响吞吐量

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...