清华提出 SoRA,参数量只有 LoRA 的 70%,表现更好!

清华提出 SoRA,参数量只有 LoRA 的 70%,表现更好!

AIGC动态欢迎阅读

原标题:清华提出 SoRA,参数量只有 LoRA 的 70%,表现更好!

关键字:模型,参数,正则,梯度,矩阵

文章来源:夕小瑶科技说

内容字数:9507字

内容摘要:夕小瑶科技说 原创作者 | 智商掉了一地、Python现在有很多关于大型语言模型(LLM)的研究,都围绕着如何高效微调展开。微调是利用模型在大规模通用数据上学到的知识,通过有针对性的小规模下游任务数据,使模型更好地适应具体任务的训练方法。在先前的工作中,全量微调的训练代价昂贵、Adapter Tuning 的训练和推理存在延迟,Prefix Tuning 会减少原始训练数据中的有效文字长度,因此有人提出使用低秩微调 LoRA,在原始预训练矩阵的旁路上,用低秩矩阵 A 和 B 来近似替代增量更新。近期,又有了新方法助力大型语言模型更高效地适应任务!来自清华的研究团队在 LoRA 的基础上,提出了一项名为 Sparse Low-Rank Adaptation(SoRA)的创新微调方法,通过动态调整内在秩,实现了对预训练模型的高效微调。SoRA 不仅在多项任务上取得了令人瞩目的性能,而且通过稀疏…

原文链接:点此阅读原文:清华提出 SoRA,参数量只有 LoRA 的 70%,表现更好!

联系作者

文章来源:夕小瑶科技说

作者微信:xixiaoyaoQAQ

作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...