解决LLaMA、BERT等部署难题：首个4-bit浮点量化LLM来了

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：解决LLaMA、BERT等部署难题：首个4-bit浮点量化LLM来了

文章来源：机器之心

内容字数：5615字

内容摘要：机器之心专栏机器之心编辑部这篇文章给出了大模型 FP 量化的解决方案。大语言模型 (LLM) 压缩一直备受关注，后训练量化（Post-training Quantization) 是其中一种常用算法，但是现有 PTQ 方法大多数都是 integer 量化，且当比特数低于 8 时，量化后模型的准确率会下降非常多。想较于 Integer (INT) 量化，Floating Point (FP) 量化能更好的表示长尾分布，因而越来越多的硬件平台开始支持 FP 量化。而这篇文章给出了大模型 FP 量化的解决方案。文章发表在 EMNLP 2023 上。论文地址：https://arxiv.org/abs/2310.16836代码地址：https://github.com/nbasyl/LLM-FP4要了解本文，必须要先具备基本的有关 Floating Point Format 以及 Floating…

原文链接：点此阅读原文：解决LLaMA、BERT等部署难题：首个4-bit浮点量化LLM来了