低内存占用也能实现满血训练？！北理北大港中文MMLab推出Fira训练框架

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：低内存占用也能实现满血训练？！北理北大港中文MMLab推出Fira训练框架
关键字：梯度,矩阵,内存,模型,方法
文章来源：量子位
内容字数：0字

内容摘要：

Fira团队投稿量子位 | 公众号 QbitAI内存占用小，训练表现也要好……大模型训练成功实现二者兼得。
来自北理、北大和港中文MMLab的研究团队提出了一种满足低秩约束的大模型全秩训练框架——Fira，成功打破了传统低秩方法中内存占用与训练表现的“非此即彼”僵局。
展开来说——
为了突破内存瓶颈，许多低秩训练方法应运而生，如LoRA（分解参数矩阵）和GaLore（分解梯度矩阵）。
△图1：从宏观层面分析三种内存高效低秩训练方法然而，如上图所示，LoRA将训练局限于参数的低秩子空间，降低了模型的表征能力，难以实现预训练；GaLore将训练局限于梯度的低秩子空间，造成了子空间外梯度的信息损失。
相较于全秩训练，这两种方法由于施加了低秩约束，会导致训练表现有所下降。
但是，若提高秩值，则会相应地增加内存占用。
因此，在实际应用中，它们需要在确保训练表现与降低内存消耗之间找到一个恰当的平衡点。
这引发了一个核心问题：
能否在维持低秩约束以确保内存高效的同时，实现全秩参数、全秩梯度的训练以提升表现？
Fira即为最新答案，它有三大亮点：
即插即用：Fira简单易用，其核心实现仅涉及两行关键

原文链接：低内存占用也能实现满血训练？！北理北大港中文MMLab推出Fira训练框架