AIGC动态欢迎阅读
原标题:解决LLaMA、BERT等部署难题:首个4-bit浮点量化LLM来了
文章来源:机器之心
内容字数:5615字
内容摘要:机器之心专栏机器之心编辑部这篇文章给出了大模型 FP 量化的解决方案。大语言模型 (LLM) 压缩一直备受关注,后训练量化(Post-training Quantization) 是其中一种常用算法,但是现有 PTQ 方法大多数都是 integer 量化,且当比特数低于 8 时,量化后模型的准确率会下降非常多。想较于 Integer (INT) 量化,Floating Point (FP) 量化能更好的表示长尾分布,因而越来越多的硬件平台开始支持 FP 量化。而这篇文章给出了大模型 FP 量化的解决方案。文章发表在 EMNLP 2023 上。论文地址:https://arxiv.org/abs/2310.16836代码地址:https://github.com/nbasyl/LLM-FP4要了解本文,必须要先具备基本的有关 Floating Point Format 以及 Floating…
原文链接:点此阅读原文:解决LLaMA、BERT等部署难题:首个4-bit浮点量化LLM来了
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...