大型语言模型的模型压缩与高效推理：综述

AIGC动态1年前 (2024)发布人工智能学家

大型语言模型的模型压缩与高效推理：综述

AIGC动态欢迎阅读

原标题：大型语言模型的模型压缩与高效推理：综述
关键字：模型,方法,语言,报告,算法
文章来源：人工智能学家
内容字数：9747字

内容摘要：

来源：专知
基于Transformer的大型语言模型取得了巨大成功。然而，在推理过程中产生的显著内存和计算成本，使得在资源受限的设备上部署大型模型变得具有挑战性。在本文中，我们从算法角度调查了大型语言模型的压缩和高效推理方法。就分类而言，类似于较小的模型，大型语言模型的压缩和加速算法仍可以分为量化、剪枝、蒸馏、紧凑架构设计、络。然而，与较小模型相比，大型语言模型有两个突出的特点：（1）大多数压缩算法在压缩后需要进行微调甚至重新训练模型。大型模型最显著的方面是与模型微调或训练相关的非常高成本。因此，许多针对大型模型的算法，如量化和剪枝，开始探索无需调整的算法。（2）大型模型强调的是通用性和泛化能力，而不是在单一任务上的性能。因此，许多算法，如知识蒸馏，关注于如何在压缩后保持其通用性和泛化能力。由于这两个特点在早期的大型模型中并不十分明显，我们进一步将大型语言模型区分为中等模型和“真正”的大型模型。此外，我们还提供了一些成熟框架的介绍，这些框架可以支持大型模型的高效推理，支持基本的压缩或加速算法，极大地便利了用户的模型部署。
大型语言模型（LLMs）已成为人工智能领域中一个重要且受欢

原文链接：大型语言模型的模型压缩与高效推理：综述