比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA
关键字：技术,模型,性质,算法,消耗
文章来源：机器之心
内容字数：3392字

内容摘要：

机器之心专栏
机器之心编辑部2022 年底，随着 ChatGPT 的爆火，人类正式进入了大模型时代。然而，训练大模型需要的时空消耗依然居高不下，给大模型的普及和发展带来了巨大困难。面对这一挑战，原先在计算机视觉领域流行的 LoRA 技术成功转型大模型 [1][2]，带来了接近 2 倍的时间加速和理论最高 8 倍的空间压缩，将微调技术带进千家万户。
但 LoRA 技术仍存在一定的挑战。一是 LoRA 技术在很多任务上还没有超过正常的全参数微调 [2][3][4]，二是 LoRA 的理论性质分析比较困难，给其进一步的研究带来了阻碍。
UIUC 联合 LMFlow 团队成员对 LoRA 的实验性质进行了分析，意外发现 LoRA 非常侧重 LLM 的底层和顶层的权重。利用这一特性，LMFlow 团队提出一个极其简洁的算法：Layerwise Importance Sampled AdamW（LISA）。论文链接：https://arxiv.org/abs/2403.17919
开源地址：https://github.com/OptimalScale/LMFlow
LISA 介绍LISA 算法的

原文链接：比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA