Adam有了mini版:内存占用少一半,吞吐量提升50%

Adam有了mini版:内存占用少一半,吞吐量提升50%

AIGC动态欢迎阅读

原标题:Adam有了mini版:内存占用少一半,吞吐量提升50%
关键字:报告,参数,模型,团队,内存
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
编辑:panda在训练大型语言模型(LLM)时,Adam(W) 基本上已经成为了人们默认使用的优化器。
Adam 尽管性能优异,但使用成本很高。具体来说,Adam 需要内存来保存其优化器状态:一阶动量 m 和二阶动量 v^2。这总共需要模型大小至少 2 倍的内存。这样的内存消耗已经成为了 LLM 训练的一大主要负担。
举个例子,要训练一个 7B 模型,只是 Adam 就需要每张卡有大约 56 GB 来保存 m 和 v;而如果再加上梯度,则总共需要 86 GB。即使使用最先进的 A100-80GB,成本也过高了。
为了支持这样的高内存算法,实践中必须要使用 CPU 卸载与分片,但这又会增加延迟,减慢训练速度。在训练 PaLM (有 5400 亿参数)这样的更大型模型时,情况还会更糟。在这种情况下,Adam 自身就要占用超过 50 GB,并且这也是预训练阶段的一大主要开销。
因此,人们希望设计出内存需求更少又有效的优化器。首先,减少内存可以减轻 CPU 卸载的负担并能减轻对模型参数执行分片的需求。这些都能减少 GPU 和 CPU 之间的通信量,并进一步提升训练过程的吞吐量和速


原文链接:Adam有了mini版:内存占用少一半,吞吐量提升50%

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...