给Transformer降降秩，移除特定层90%以上组件LLM性能不减

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：给Transformer降降秩，移除特定层90%以上组件LLM性能不减
关键字：模型,矩阵,研究者,权重,性能
文章来源：机器之心
内容字数：5479字

内容摘要：

机器之心报道
编辑：陈萍、杜伟MIT、微软联合研究：不需要额外训练，也能增强大语言模型的任务性能并降低其大小。在大模型时代，Transformer 凭一己之力撑起了整个科研领域。自发布以来，基于 Transformer 的 LLM 在各种任务上表现出卓越的性能，其底层的 Transformer 架构已成为自然语言建模和推理的最先进技术，并在计算机视觉和强化学习等领域显示出强有力的前景。
然而，当前 Transformer 架构非常庞大，通常需要大量计算资源来进行训练和推理。
这是有意为之的，因为经过更多参数或数据训练的 Transformer 显然比其他模型更有能力。尽管如此，越来越多的工作表明，基于 Transformer 的模型以及神经网络不需要所有拟合参数来保留其学到的假设。
一般来讲，在训练模型时大规模过度参数化似乎很有帮助，但这些模型可以在推理之前进行大幅剪枝；有研究表明神经网络通常可以去除 90% 以上的权重，而性能不会出现任何显著下降。这种现象促使研究者开始转向有助于模型推理的剪枝策略研究。
来自 MIT、微软的研究者在论文《 The Truth is in There:

原文链接：给Transformer降降秩，移除特定层90%以上组件LLM性能不减