低精度只适用于未充分训练的LLM？腾讯提出LLM量化的scaling laws

本文介绍了一套针对于低比特量化的 scaling laws。

原标题：低精度只适用于未充分训练的LLM？腾讯提出LLM量化的scaling laws
文章来源：机器之心
内容字数：5625字

本文总结了腾讯AI Lab发表在arXiv上的一篇论文，该论文挑战了低比特量化在大型语言模型(LLM)中的普遍适用性。研究发现，低比特量化仅在未充分训练的LLM上才能取得与fp16/bf16精度相当的性能，随着训练的深入，性能差距会显著扩大。

近年来，低比特量化因其能够在降低模型规模、内存占用和计算资源的同时保持性能而备受关注。然而，腾讯AI Lab的研究表明，这种优势只存在于训练数据量较少的LLM中(通常小于5000亿tokens)。当模型充分训练后，低比特量化会导致显著的性能下降。

研究人员对超过1500个不同大小和训练程度的开源LLM检查点进行了量化实验，分析了量化引起的性能退化(QiD)。实验使用了Pythia系列模型，涵盖了不同尺寸(160M到12B参数)和训练阶段的检查点。通过GPTQ对这些检查点进行2-bit,3-bit,4-bit量化，并观察QiD的变化。

研究人员发现，在模型大小固定的情况下，训练数据量越多，QiD越大；在训练数据量固定的情况下，模型越小，QiD越大。这表明充分训练的模型更容易受到低比特量化的负面影响。

基于实验结果，研究人员推导出一套低比特量化的scaling laws，该公式可以预测不同大小和训练程度的LLM在低比特量化下的性能损失：∆qLoss = k * N^α * D^β * P^γ 。其中，N为模型参数量，D为训练数据量，P为量化精度(比特数)，α、β、γ为正数指数，k为联合系数。

该公式表明，更大的模型(N)、更低的精度(P)会导致更小的QiD，而更大的训练数据量(D)会导致更大的QiD。

研究人员认为，未充分训练的LLM权重变化幅度较大，对权重变化更鲁棒，因此低比特量化造成的偏差较小。而充分训练的LLM权重变化较小，低比特量化带来的额外变化更容易导致性能下降。

研究人员提出，QiD可以作为衡量LLM训练是否充分的指标。QiD接近0表明模型尚未充分训练，还有提升空间。利用scaling laws，可以预测不同尺寸的LLM达到指定QiD所需的训练数据量。

研究也涵盖了原生低比特LLM，发现其规律与低比特量化类似，但性能下降可能在更晚的训练阶段才会显现。

研究强调了在未充分训练的LLM上进行实验的局限性，呼吁社区重新审视基于此类实验得出的结论。随着模型训练数据量的不断增加，低比特量化在未来应用中的前景可能并不乐观。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

文章版权归作者所有，未经允许请勿转载。

暂无评论...