万字干货!手把手教你如何训练超大规模集群下的大语言模型

AIGC动态3个月前发布 AI前线
12 0 0

万字干货!手把手教你如何训练超大规模集群下的大语言模型

AIGC动态欢迎阅读

原标题:万字干货!手把手教你如何训练超大规模集群下的大语言模型
关键字:通信,模型,快手,字节跳动,华为
文章来源:AI前线
内容字数:0字

内容摘要:


演讲嘉宾 | 刘育良 AI 平台大模型训练负责人
审核|傅宇琪 褚杏娟
策划 | 蔡芳芳
快手总结了一套超大规模集群下大语言模型训练方案。该方案在超长文本场景下,在不改变模型表现的情况下,训练效率相较 SOTA 开源方案,有显著的吞吐提升。通过细致的建模,可保证 Performance Model 十分接近真实性能,基于此 Performance Model,解决了大模型训练调参困难的问题。
本文整理自快手 AI 平台大模型训练负责人刘育良在 QCon 2024 北京的分享“超大规模集群下大语言模型训练的最佳实践”。演讲结合在快手超算集群上的大模型训练经验,阐述大模型训练在超大规模集群下遇到的挑战和热点问题的演变,以及对应的解决方案。同时,针对最具挑战的超长文本场景,进行案例分析。最后,根据未来大模型的发展趋势,对训练领域的技术探索方向进行探讨。
本文由 InfoQ 整理,经刘育良老师授权发布。以下为演讲实录。
简单介绍一下背景,下图清晰地描述从过去到现在,即 23 年之前所有主流大模型的发展历程。从技术架构的角度来看,Transformer 架构无疑是当前大模型领域最主流的算法架构。


原文链接:万字干货!手把手教你如何训练超大规模集群下的大语言模型

联系作者

文章来源:AI前线
作者微信:ai-front
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...