避免训练过程中损失回升
一行代码提升大模型训练效率
根据克雷西发自凹非寺量子位的报道,得州大学奥斯汀分校的四名华人学者提出了一种新的大模型训练优化器——Cautious Optimizers。这一优化器通过简单的一行代码修改,使得大模型的训练效率提升至1.47倍,同时确保训练效果不受影响,适用于语言与视觉模型。
优化器的原理
Cautious Optimizers基于哈密顿量和下降动力学的理论,旨在加速训练的同时保证收敛特性。在PyTorch中,只需增加一行代码,通过引入掩蔽机制,避免参数更新方向与当前梯度方向相悖。具体来说,该机制通过内积判断参数更新与梯度方向的一致性,确保在方向不一致时跳过更新,从而减少损失函数的回升风险。
显著的训练效率提升
研究者在600M至1B参数规模的Llama模型上进行了实验,结果显示Cautious Optimizers显著提升了训练效率。尤其在1B规模下,与原版AdamW和Lion相比,C-AdamW和C-Lion的样本效率分别提高了47%和28%。同时,Cautious Optimizers在所有实验中都表现出更低的困惑度,验证了其优秀的泛化能力。
在下游任务中的表现
为评估模型的实际效果,研究者在6个GLUE下游任务中测试了C-AdamW的表现,结果显示其平均得分比AdamW高出2%,大多数任务均取得进步,证明了该优化器的有效性。在视觉任务方面,Cautious Optimizers同样表现出色,训练MAE模型时,C-AdamW的最终重建误差为0.5926,低于AdamW的0.6085。
研究团队背景
该项目由Kaizhao Liang及其团队共同打造,Liang是一名高级ML工程师,其他三位研究者均为得州大学奥斯汀分校的教授及博士生。研究成果已在GitHub上开源,提供详细的使用说明。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...