Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

AIGC动态5个月前发布 机器之心
17 0 0

Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

AIGC动态欢迎阅读

原标题:Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效
关键字:字节跳动,张量,切分,模型,性能
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心发布
机器之心编辑部伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提高训练效率的关键。近日,字节跳动豆包大模型团队与香港大合提出了 ByteCheckpoint。这是一个 PyTorch 原生,兼容多个训练框架,支持 Checkpoint 的高效读写和自动重新切分的大模型 Checkpointing 系统,相比现有方法有显著性能提升和易用性优势。本文介绍了大模型训练提效中 Checkpoint 方向面临的挑战,总结 ByteCheckpoint 的解决思路、系统设计、I/O 性能优化技术,以及在存储性能和读取性能测试的实验结果。Meta 官方最近披露了在 16384 块 H100 80GB 训练集群上进行 Llama3 405B 训练的故障率 —— 短短 54 天,发生 419 次中断,平均每三小时崩溃一次,引来不少从业者关注。
正如业内一句常言,大型训练系统唯一确定的,便是软硬件故障。随着训练规模与模型大小的日


原文链接:Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...