AIGC动态欢迎阅读
原标题:今日arXiv最热NLP大模型论文:做到头了!清华和哈工大把大模型量化做到了1比特
关键字:模型,矩阵,权重,报告,性能
文章来源:夕小瑶科技说
内容字数:8601字
内容摘要:
夕小瑶科技说 原创作者 | 谢年年在追求更高效的机器学习模型部署时,模型量化技术应运而生,它通过降低权重矩阵的位宽来显著减少大型语言模型的存储和计算需求。
我们一般的双精度浮点型double是64位,单精度浮点型float是32位。早年RoBERTa等大模型训练时把精度压缩到了16位的半精度FP16。近年来,大语言模型量化一般都只敢玩到4位或8位量化,因为要是把位宽压得太狠,性能就会直线下滑。
最近,清华和哈工大提出了一个名为OneBit的1位量化感知训练框架把大模型量化做到了1比特,同时保证了时间和空间效率以及模型性能之间的平衡,至少能达到非量化性能的83%,而且训练过程还特别稳定。
OneBit框架采用创新的1比特参数表示方法,精确量化LLM。同时,结合高效的矩阵分解初始化策略——Sign-Value-Independent Decomposition(SVID),显著提升框架收敛速度。通过量化感知知识蒸馏,成功将教师模型的能力迁移至1比特对应模型。
论文标题:OneBit: Towards Extremely Low-bit Large Language Models
公众号「夕
原文链接:今日arXiv最热NLP大模型论文:做到头了!清华和哈工大把大模型量化做到了1比特
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI一线开发者、互联网中高管和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备行业嗅觉与报道深度。