大型语言模型的模型压缩与高效推理:综述

大型语言模型的模型压缩与高效推理:综述

AIGC动态欢迎阅读

原标题:大型语言模型的模型压缩与高效推理:综述
关键字:模型,方法,语言,报告,算法
文章来源:人工智能学家
内容字数:9747字

内容摘要:


来源:专知
基于Transformer的大型语言模型取得了巨大成功。然而,在推理过程中产生的显著内存和计算成本,使得在资源受限的设备上部署大型模型变得具有挑战性。在本文中,我们从算法角度调查了大型语言模型的压缩和高效推理方法。就分类而言,类似于较小的模型,大型语言模型的压缩和加速算法仍可以分为量化、剪枝、蒸馏、紧凑架构设计、动态网络。然而,与较小模型相比,大型语言模型有两个突出的特点:(1)大多数压缩算法在压缩后需要进行微调甚至重新训练模型。大型模型最显著的方面是与模型微调或训练相关的非常高成本。因此,许多针对大型模型的算法,如量化和剪枝,开始探索无需调整的算法。(2)大型模型强调的是通用性和泛化能力,而不是在单一任务上的性能。因此,许多算法,如知识蒸馏,关注于如何在压缩后保持其通用性和泛化能力。由于这两个特点在早期的大型模型中并不十分明显,我们进一步将大型语言模型区分为中等模型和“真正”的大型模型。此外,我们还提供了一些成熟框架的介绍,这些框架可以支持大型模型的高效推理,支持基本的压缩或加速算法,极大地便利了用户的模型部署。
大型语言模型(LLMs)已成为人工智能领域中一个重要且受欢


原文链接:大型语言模型的模型压缩与高效推理:综述

联系作者

文章来源:人工智能学家
作者微信:AItists
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...