清华、哈工大把大模型压缩到了1bit，把大模型放在手机里跑的愿望就快要实现了！

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：清华、哈工大把大模型压缩到了1bit，把大模型放在手机里跑的愿望就快要实现了！
关键字：模型,矩阵,参数,方法,作者
文章来源：机器之心
内容字数：8497字

内容摘要：

机器之心专栏
机器之心编辑部近期，清华大学和哈尔滨工业大合发布了一篇论文：把大模型压缩到 1.0073 个比特时，仍然能使其保持约 83% 的性能！自从大模型火爆出圈以后，人们对压缩大模型的愿望从未消减。这是因为，虽然大模型在很多方面表现出优秀的能力，但高昂的的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」通过把大模型的参数转化为低位宽的表示，进而节省空间占用。目前，主流方法可以在几乎不损失模型性能的情况下把已有模型压缩至 4bit。然而，低于 3bit 的量化像一堵不可逾越的高墙，让研究人员望而生畏。
图 1 : 量化模型的困惑度在 2bit 时迅速上升
近期，一篇由清华大学、哈尔滨工业大学合作发表在 arXiv 上的论文为突破这一阻碍带来了希望，在国内外学术圈引起了不小的关注。这篇论文也在一周前登上 huggingface 的热点论文，并被著名论文推荐师 AK 推荐。研究团队直接越过 2bit 这一量化级别，大胆地进行了 1bit 量化的尝试，这在模型量化的研究中尚属首次。论文标题：OneBit: Towards Extremely Low-b

原文链接：清华、哈工大把大模型压缩到了1bit，把大模型放在手机里跑的愿望就快要实现了！