大模型也能切片，微软SliceGPT让LLAMA-2计算效率大增

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：大模型也能切片，微软SliceGPT让LLAMA-2计算效率大增
关键字：模型,矩阵,剪裁,作者,网络
文章来源：机器之心
内容字数：10504字

内容摘要：

机器之心报道
编辑：张倩、佳琪删除权重矩阵的一些行和列，让 LLAMA-2 70B 的参数量减少 25%，模型还能保持 99% 的零样本任务性能，同时计算效率大大提升。这就是微软 SliceGPT 的威力。大型语言模型（LLM）通常拥有数十亿的参数，用了数万亿 token 的数据进行训练，这样的模型训练、部署成本都非常高。因此，人们经常用各种模型压缩技术来减少它们的计算需求。
一般来讲，这些模型压缩技术可以分为四类：蒸馏、张量分解（包括低秩因式分解）、剪枝和量化。其中，剪枝方法已经存在了一段时间，但许多方法需要在剪枝后进行恢复微调（RFT）以保持性能，这使得整个过程成本高昂且难以扩展。
为了解决这一问题，来自苏黎世联邦理工学院、微软的研究者提出了一个名为 SliceGPT 的方法。SliceGPT 的核心思想是删除权重矩阵中的行和列来降低网络的嵌入维数，同时保持模型性能。
研究人员表示，有了 SliceGPT，他们只需几个小时就能使用单个 GPU 压缩大型模型，即使没有 RFT，也能在生成和下游任务中保持有竞争力的性能。目前，该论文已经被 ICLR 2024 接收。论文标题：SLICE

原文链接：大模型也能切片，微软SliceGPT让LLAMA-2计算效率大增