万字干货！手把手教你如何训练超大规模集群下的大语言模型

AIGC动态1年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：万字干货！手把手教你如何训练超大规模集群下的大语言模型
关键字：通信,模型,快手,字节跳动,华为
文章来源：AI前线
内容字数：0字

内容摘要：

演讲嘉宾 | 刘育良 AI 平台大模型训练负责人
审核｜傅宇琪褚杏娟
策划 | 蔡芳芳
快手总结了一套超大规模集群下大语言模型训练方案。该方案在超长文本场景下，在不改变模型表现的情况下，训练效率相较 SOTA 开源方案，有显著的吞吐提升。通过细致的建模，可保证 Performance Model 十分接近真实性能，基于此 Performance Model，解决了大模型训练调参困难的问题。
本文整理自快手 AI 平台大模型训练负责人刘育良在 QCon 2024 北京的分享“超大规模集群下大语言模型训练的最佳实践”。演讲结合在快手超算集群上的大模型训练经验，阐述大模型训练在超大规模集群下遇到的挑战和热点问题的演变，以及对应的解决方案。同时，针对最具挑战的超长文本场景，进行案例分析。最后，根据未来大模型的发展趋势，对训练领域的技术探索方向进行探讨。
本文由 InfoQ 整理，经刘育良老师授权发布。以下为演讲实录。
简单介绍一下背景，下图清晰地描述从过去到现在，即 23 年之前所有主流大模型的发展历程。从技术架构的角度来看，Transformer 架构无疑是当前大模型领域最主流的算法架构。

原文链接：万字干货！手把手教你如何训练超大规模集群下的大语言模型