LLM 推理量化评估：FP8、INT8 与 INT4 的全面对比

AIGC动态欢迎阅读

原标题：LLM 推理量化评估：FP8、INT8 与 INT4 的全面对比
关键字：模型,腾讯,基准,作者,权重
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

大会预告12月5日-6日，2024中国生成式AI大会（上海站）将举办。上海科大助理教授、博导顾家远，腾讯优图实验室天衍研究中心负责人吴贤，银河通用机器人合伙人张直政，趣丸科技副总裁贾朔，旷视研究院高级研究员李华东已确认参会，将围绕大模型、具身智能、AI视频生成带来分享，欢迎报名。01背景本文简要介绍一篇关于 LLM 推理量化评估的文章。虽然文中某些结论可能与许多人的直觉不符，但在真实业务场景中，我们得出的结论却与这些发现非常相似。例如，在面试中与一些候选人讨论 LLM 推理量化时，尽管不少人使用了 H20/H800/4090 等 GPU 用于 LLM 推理，仍普遍坚持使用 INT8 量化，而极少尝试 FP8 推理；此外，也有不少人认为 NVIDIA 的高端 GPU（如 A100 和 H100）主要适用于训练场景，在推理中的成本过高，从而忽视了在推理中使用这些硬件的优势和潜力。
我们的一些实践经验是：针对 LLM 推理场景，FP8 往往比 INT8、AWQ-INT4 这些方案具有更小的损失，比如 FP8 往往在 1% 以内，而 AWQ-INT4 甚至可能达到 2%-3%，尤其是 INT8

原文链接：LLM 推理量化评估：FP8、INT8 与 INT4 的全面对比