今日arXiv最热大模型论文：超越LoRA，北京大学提出预训练模型非梯度优化法

AIGC动态1年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：今日arXiv最热大模型论文：超越LoRA，北京大学提出预训练模型非梯度优化法
关键字：模型,方法,导数,研究者,梯度
文章来源：夕小瑶科技说
内容字数：6940字

内容摘要：

夕小瑶科技说原创编辑 | 松果
引言：探索大型语言模型中低秩适应的新方法在自然语言处理领域，大语言模型（LLMs）的迅猛发展带来了前所未有的性能提升。然而，随之而来的是模型参数数量的激增，这不仅导致了调优成本的线性增长，也给在常规硬件上进行微调带来了挑战。为了解决这一问题，研究者们提出了一系列参数高效的调优方法，如LoRA，它们通过只调整模型中一小部分参数来实现与全参数微调相当的性能。尽管这些方法能够降低约30%的GPU内存需求，但仍需要计算梯度和进行反向传播，这对于大语言模型的使用和部署提出了挑战。
近期，研究者们开始探索无导数优化（derivative-free optimization, DFO）方法，以避免梯度计算，并在少量样本（few-shot）设置中展示出更强的鲁棒性。本文提出了一种新的无导数优化方法，通过在每个自注意力层前置低秩模块，并交替使用两种无导数优化方法来优化这些低秩模块。实验结果表明，与现有的基于梯度的参数高效调优方法和无导数优化方法相比，该新方法在各种任务和语言模型上都取得了显著的改进，并在内存使用和收敛速度方面展现了明显的优势。
论文标题：Derivati

原文链接：今日arXiv最热大模型论文：超越LoRA，北京大学提出预训练模型非梯度优化法