大模型训练loss突刺原因和解决办法

AIGC动态2年前 (2024)发布算法邦

大模型训练loss突刺原因和解决办法

AIGC动态欢迎阅读

原标题：大模型训练loss突刺原因和解决办法
关键字：梯度,模型,稳态,参数,状态
文章来源：算法邦
内容字数：9677字

内容摘要：

直播预告 | 今晚7点，「自动驾驶新青年讲座」第35讲正式开讲，LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive：大语言模型加持的闭环端到端自动驾驶框架》，欢迎扫名~原文链接:
https://zhuanlan.zhihu.com/p/675421518
最近阅读了《A Theory on Adam Instability in Large-Scale Machine Learning 》这篇论文。比较全面的阐述了100B以上的大模型预训练现loss spike的原因(loss 突然大幅度上涨)，并介绍了一些可能的解决办法。论文写的非常精彩，但整体上有点散和深，我尝试着站在工业立场上把它串一下
01突刺是什么首先介绍一下什么是loss spike：
loss spike指的是预训练过程中，尤其容易在大模型（100B以上）预训练过程现的loss突然暴涨的情况如图所示模型训练过程中红框中突然上涨的loss尖峰
loss spike的现象会导致一系列的问题发生，譬如模型需要很长时间才能再次回到spike之前的状态（论文中称为pre-explosion）

原文链接：大模型训练loss突刺原因和解决办法