大模型训练loss突刺原因和解决办法

AIGC动态10个月前发布 算法邦
52 0 0

大模型训练loss突刺原因和解决办法

AIGC动态欢迎阅读

原标题:大模型训练loss突刺原因和解决办法
关键字:梯度,模型,稳态,参数,状态
文章来源:算法邦
内容字数:9677字

内容摘要:


直播预告 | 今晚7点,「自动驾驶新青年讲座」第35讲正式开讲,LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive:大语言模型加持的闭环端到端自动驾驶框架》,欢迎扫码报名~原文链接:
https://zhuanlan.zhihu.com/p/675421518
最近阅读了《A Theory on Adam Instability in Large-Scale Machine Learning 》这篇论文。比较全面的阐述了100B以上的大模型预训练中出现loss spike的原因(loss 突然大幅度上涨),并介绍了一些可能的解决办法。论文写的非常精彩,但整体上有点散和深,我尝试着站在工业立场上把它串一下
01突刺是什么首先介绍一下什么是loss spike:
loss spike指的是预训练过程中,尤其容易在大模型(100B以上)预训练过程中出现的loss突然暴涨的情况如图所示模型训练过程中红框中突然上涨的loss尖峰
loss spike的现象会导致一系列的问题发生,譬如模型需要很长时间才能再次回到spike之前的状态(论文中称为pre-explosion)


原文链接:大模型训练loss突刺原因和解决办法

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:「算法邦」,隶属于智猩猩,关注大模型、生成式AI、计算机视觉三大领域的研究与开发,提供技术文章、讲座、在线研讨会。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...