LoRA、完全微调到底有何不同?MIT 21页论文讲明白了

LoRA、完全微调到底有何不同?MIT 21页论文讲明白了

AIGC动态欢迎阅读

原标题:LoRA、完全微调到底有何不同?MIT 21页论文讲明白了
关键字:维度,模型,报告,向量,任务
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
编辑:陈陈、小舟本文旨在了解两种微调大型语言模型方法之间的差异:完全微调和低秩自适应 (LoRA)。这两种方法都用于将预训练模型适应特定的下游任务,但它们却有所不同。微调(Fine-tuning)是将经过预训练的大语言模型应用于下游任务的关键范例。最近,低秩自适应 (LoRA) 等方法已被证明可以在各种任务上达到完全微调模型的性能,同时可训练参数的数量却大大减少。
这就提出一个问题,即它们学到的解决方案真的等效吗?
带着这一疑问,来自 MIT 的研究者在论文《 LORA VS FULL FINE-TUNING: AN ILLUSION OF EQUIVALENCE 》中进行了深入探讨。论文地址:https://arxiv.org/pdf/2410.21228v1作者通过分析预训练模型权重矩阵的光谱特性来研究不同的微调方法如何改变模型。
研究发现,完全微调与 LoRA 产生的权重矩阵奇异值分解结构有显著不同,并且经过微调后的模型在面对超出适应任务分布的测试时也显示出不同的泛化行为。
特别是,LoRA 训练的权重矩阵现了称为「侵入维度(intruder dimension


原文链接:LoRA、完全微调到底有何不同?MIT 21页论文讲明白了

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...