解决LLaMA、BERT等部署难题:首个4-bit浮点量化LLM来了

AIGC动态12个月前发布 机器之心
44 0 0

解决LLaMA、BERT等部署难题:首个4-bit浮点量化LLM来了

AIGC动态欢迎阅读

原标题:解决LLaMA、BERT等部署难题:首个4-bit浮点量化LLM来了

关键字:区间,公式,缩放,模型,因子

文章来源:机器之心

内容字数:5615字

内容摘要:机器之心专栏机器之心编辑部这篇文章给出了大模型 FP 量化的解决方案。大语言模型 (LLM) 压缩一直备受关注,后训练量化(Post-training Quantization) 是其中一种常用算法,但是现有 PTQ 方法大多数都是 integer 量化,且当比特数低于 8 时,量化后模型的准确率会下降非常多。想较于 Integer (INT) 量化,Floating Point (FP) 量化能更好的表示长尾分布,因而越来越多的硬件平台开始支持 FP 量化。而这篇文章给出了大模型 FP 量化的解决方案。文章发表在 EMNLP 2023 上。论文地址:https://arxiv.org/abs/2310.16836代码地址:https://github.com/nbasyl/LLM-FP4要了解本文,必须要先具备基本的有关 Floating Point Format 以及 Floating…

原文链接:点此阅读原文:解决LLaMA、BERT等部署难题:首个4-bit浮点量化LLM来了

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...