大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增

AIGC动态11个月前发布 机器之心
43 0 0

大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增

AIGC动态欢迎阅读

原标题:大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增
关键字:模型,矩阵,剪裁,作者,网络
文章来源:机器之心
内容字数:10504字

内容摘要:


机器之心报道
编辑:张倩、佳琪删除权重矩阵的一些行和列,让 LLAMA-2 70B 的参数量减少 25%,模型还能保持 99% 的零样本任务性能,同时计算效率大大提升。这就是微软 SliceGPT 的威力。大型语言模型(LLM)通常拥有数十亿的参数,用了数万亿 token 的数据进行训练,这样的模型训练、部署成本都非常高。因此,人们经常用各种模型压缩技术来减少它们的计算需求。
一般来讲,这些模型压缩技术可以分为四类:蒸馏、张量分解(包括低秩因式分解)、剪枝和量化。其中,剪枝方法已经存在了一段时间,但许多方法需要在剪枝后进行恢复微调(RFT)以保持性能,这使得整个过程成本高昂且难以扩展。
为了解决这一问题,来自苏黎世联邦理工学院、微软的研究者提出了一个名为 SliceGPT 的方法。SliceGPT 的核心思想是删除权重矩阵中的行和列来降低网络的嵌入维数,同时保持模型性能。
研究人员表示,有了 SliceGPT,他们只需几个小时就能使用单个 GPU 压缩大型模型,即使没有 RFT,也能在生成和下游任务中保持有竞争力的性能。目前,该论文已经被 ICLR 2024 接收。论文标题:SLICE


原文链接:大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...