量化大模型退化严重?ETH北航字节推出LoRA新范式 | ICML 2024

AIGC动态5个月前发布 量子位
20 0 0

量化大模型退化严重?ETH北航字节推出LoRA新范式 | ICML 2024

AIGC动态欢迎阅读

原标题:量化大模型退化严重?ETH北航字节推出LoRA新范式 | ICML 2024
关键字:信息,字节跳动,模型,权重,表示
文章来源:量子位
内容字数:0字

内容摘要:


QHT 投稿量子位 | 公众号 QbitAI大模型应用开卷,连一向保守的苹果,都已释放出发展端侧大模型的信号。
问题是,大语言模型(LLM)卓越的表现取决于“力大砖飞”,如何在资源有限的环境中部署大模型并保障性能,仍然颇具挑战。
以对大模型进行量化+LoRA的路线为例,有研究表明,现有方法会导致量化的LLM严重退化,甚至无法从LoRA微调中受益。
为了解决这一问题,来自苏黎世联邦理工学院、北京航空航天大学和字节跳动的研究人员,最新提出了一种信息引导的量化后LLM微调新算法IR-QLoRA。论文已入选ICML 2024 Oral论文。
论文介绍,IR-QLoRA能有效改善量化导致的大模型性能退化。在LLaMA和LLaMA 2系列中,用该方法微调的2位模型,相比于16位模型仅有0.9%的精度差异。
△IR-QLoRA框架图该方法的核心思想,是通过信息保留来使LoRA微调量化的大语言模型实现精度提升。
包含从统一信息角度衍生的两种技术:信息校准量化和信息弹性连接。
信息校准量化LLM的量化权重被期望反映原始对应方所携带的信息,但比特宽度的减小严重限制了表示能力。从信息的角度来看,量化LLM和


原文链接:量化大模型退化严重?ETH北航字节推出LoRA新范式 | ICML 2024

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...