参数少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微调框架FLoRA

AIGC动态2个月前发布 量子位
14 0 0

参数少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微调框架FLoRA

AIGC动态欢迎阅读

原标题:参数少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微调框架FLoRA
关键字:张量,参数,维度,卷积,方法
文章来源:量子位
内容字数:0字

内容摘要:


Huiser 投稿量子位 | 公众号 QbitAI为了让大模型在特定任务、场景下发挥更大作用,LoRA这样能够平衡性能和算力资源的方法正在受到研究者们的青睐。
然而,以LoRA为代表的众多低秩微调方法(包括DoRA, MoRA, AdaLoRA等衍生方法)仍存在一个问题:
它们通常通常都更适合Linear层,Embedding层这类“直入直出”的低维度张量,忽略了对更高维度甚至N维张量的考虑。
尽管这些方法可以通过一定方式将高维度张量转化为2D张量来微调参数,如LoRA将Conv2D卷积层参数所具有的四维张量转化为二维张量。但其存在两方面的挑战:
这种将卷积核拆开分别reshape到,维度上的方法虽然避免了参数的大规模增加,但是破坏了卷积核本身的结构特性。这对于密集预测类任务所需要的局部归纳偏置是一种负向影响。
随着张量维度的升高,reshape为二维的方式会造成急剧的参数量增加,背离了参数高效微调方法的初衷。
为了解决以上两个问题,来自上海交通大学、上海AI Lab的研究人员提出了FLoRA方法(flora意为植物群,具有广泛的寓意)。
以视觉任务为例,FLoRA能在比LoRA少80


原文链接:参数少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微调框架FLoRA

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...