不需要反向传播
原标题:算力直降97%,GPT-3存储只用20MB?!这篇直接在1.58-bit下训练模型的新论文火了
文章来源:量子位
内容字数:3484字
1750亿参数GPT-3只需20MB存储?低精度训练新技术引爆网络
近日,一篇关于低精度训练大语言模型的论文在网络上引发热议,其核心技术“noise_step”允许1750亿参数的GPT-3模型仅需20MB存储空间,并大幅降低算力消耗(减少97%)和存储消耗(减少90%)。该技术由机器学习工程师Will小哥提出,其突破性之处在于无需反向传播,直接在1.58-bit低精度下训练模型。
1. 颠覆传统:无需反向传播的低精度训练
传统的深度学习模型训练依赖于反向传播算法,计算量巨大。而noise_step技术则另辟蹊径,通过巧妙地利用雅可比向量积(JVP)方法估计梯度,从而绕过了反向传播过程。JVP方法通过在前向传播中引入随机性,生成随机向量,并计算其与目标函数梯度的对齐度来估计梯度。这种方法无需存储或传输大量数据,大幅降低了算力和存储需求。
2. 低精度训练的优势:存储压缩与高效微调
noise_step允许模型在1.58-bit(三元)精度下进行训练,这使得模型参数存储空间大幅缩减。更重要的是,该技术允许存储训练步骤而非权重,进一步压缩模型尺寸, potentially enabling the download of a SOTA model within a second. 由于使用了伪随机噪声,整个训练过程可以被一个种子值复现,并且可以恢复每个训练步骤,这使得微调变得更加高效,甚至可以对过去的训练步骤进行编辑(例如翻转或屏蔽),从而实现更精细的模型控制和调整。
3. 分布式训练的效率提升
在分布式训练中,noise_step通过减少每个扰动所需的位数,显著降低了通信量,从而提高了训练效率。这对于训练大型语言模型至关重要,因为它可以加快训练速度,并降低通信成本。
4. 潜在风险与未来展望
虽然noise_step技术极具优势,但也存在潜在的风险。由于模型可以通过少量训练步骤来重建,模型泄露的风险也随之增加。然而,这项技术的潜力巨大,它有望彻底改变大型语言模型的训练和部署方式,使之更加高效、经济和易于访问。
5. 论文及代码获取
由于arXiv的审核问题,论文目前已发布在GitHub上,感兴趣的读者可以自行查阅。同时,作者也提供了一个CPU实现过程的Colab notebook,方便大家进行学习和实验。
总而言之,noise_step技术的出现为大语言模型的训练带来了性的变化,它不仅降低了训练成本,也为模型的微调和分布式训练提供了新的思路。未来,随着该技术的进一步发展和完善,我们有望看到更加高效、便捷的大语言模型应用。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破