清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

AIGC动态欢迎阅读

原标题:清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!
关键字:模型,矩阵,参数,方法,作者
文章来源:机器之心
内容字数:8497字

内容摘要:


机器之心专栏
机器之心编辑部近期,清华大学和哈尔滨工业大学联合发布了一篇论文:把大模型压缩到 1.0073 个比特时,仍然能使其保持约 83% 的性能!自从大模型火爆出圈以后,人们对压缩大模型的愿望从未消减。这是因为,虽然大模型在很多方面表现出优秀的能力,但高昂的的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」通过把大模型的参数转化为低位宽的表示,进而节省空间占用。目前,主流方法可以在几乎不损失模型性能的情况下把已有模型压缩至 4bit。然而,低于 3bit 的量化像一堵不可逾越的高墙,让研究人员望而生畏。
图 1 : 量化模型的困惑度在 2bit 时迅速上升
近期,一篇由清华大学、哈尔滨工业大学合作发表在 arXiv 上的论文为突破这一阻碍带来了希望,在国内外学术圈引起了不小的关注。这篇论文也在一周前登上 huggingface 的热点论文,并被著名论文推荐师 AK 推荐。研究团队直接越过 2bit 这一量化级别,大胆地进行了 1bit 量化的尝试,这在模型量化的研究中尚属首次。论文标题:OneBit: Towards Extremely Low-b


原文链接:清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...