如何把大模型压缩到1bit?论文作者这样说

如何把大模型压缩到1bit?论文作者这样说

AIGC动态欢迎阅读

原标题:如何把大模型压缩到1bit?论文作者这样说
关键字:报告,解读,模型,方法,技术
文章来源:机器之心
内容字数:2203字

内容摘要:


自从大模型火爆出圈以后,人们对压缩大模型的愿望从未消减。这是因为,虽然大模型在很多方面表现出优秀的能力,但高昂的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」 通过把大模型的参数转化为低位宽的表示,进而节省空间占用。目前,主流方法可以在几乎不损失模型性能的情况下把已有模型压缩至 4bit。然而,低于 3bit 的量化像一堵不可逾越的高墙,让研究人员望而生畏。
来自清华大学、哈尔滨工业大学的研究者大胆地将 LLM 的权重矩阵量化为 1 位,为 LLM 的极低位宽部署铺平了道路。针对这一目标,该研究引入了一个名为 OneBit 的 1 位量化感知训练(QAT)框架,包括一种新颖的 1 位参数表示方法以更好地量化 LLM,以及一种基于矩阵分解的有效参数初始化方法以提高收敛性 QAT 框架的速度。实验结果表明,OneBit 在仅使用 1 位权重矩阵时通过鲁棒的训练过程实现了良好的性能(至少是非量化性能的 83%)。
为了更好的帮助大家了解这项研究,机器之心最新一期线上分享(即 3 月 18 日 19:00-20:00)邀请到了论文作者之一徐玉庄,为大家解读他们


原文链接:如何把大模型压缩到1bit?论文作者这样说

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...