大模型压缩量化方案怎么选？无问芯穹Qllm-Eval量化方案全面评估：多模型、多参数、多维度

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：大模型压缩量化方案怎么选？无问芯穹Qllm-Eval量化方案全面评估：多模型、多参数、多维度
关键字：模型,权重,能力,性能,张量
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心发布
作者：李师尧（无问芯穹TechView）基于 Transformer架构的大型语言模型在各种基准测试中展现出优异性能，但数百亿、千亿乃至万亿量级的参数规模会带来高昂的服务成本。例如GPT-3有1750亿参数，采用FP16存储，模型大小约为350GB，而即使是英伟达最新的B200 GPU 内存也只有192GB ，更不用说其他GPU和边缘设备。
大模型压缩，即将大模型“瘦身”后塞进资源受限的场景，以减少模型存储、访存和计算开销。在尽量不损失模型性能的前提下，提高大模型推理吞吐速度，使大模型在物联网边缘设备、嵌入式机器人、离线移动应用等边、端场景中保持优秀的推理性能和功耗表现。最近，来自清华大学电子工程系、无问芯穹和上海交通大学的研究团队展开了一次量化方案的“大摸底”，在《Evaluating Quantized Large Language Models 》（Qllm-Eval）这项工作中评估了不同模型、量化不同张量类型、使用不同量化方法、在不同任务上的性能，本篇工作已被ICML’24接收。Qllm-Eval列举出很多大模型落地环节应当关注的模型能力，对产业中的模型量化工作实

原文链接：大模型压缩量化方案怎么选？无问芯穹Qllm-Eval量化方案全面评估：多模型、多参数、多维度