AIGC动态欢迎阅读
原标题:LLM 推理量化评估:FP8、INT8 与 INT4 的全面对比
关键字:模型,腾讯,基准,作者,权重
文章来源:智猩猩GenAI
内容字数:0字
内容摘要:
大会预告12月5日-6日,2024中国生成式AI大会(上海站)将举办。上海科大助理教授、博导顾家远,腾讯优图实验室天衍研究中心负责人吴贤,银河通用机器人合伙人张直政,趣丸科技副总裁贾朔,旷视研究院高级研究员李华东已确认参会,将围绕大模型、具身智能、AI视频生成带来分享,欢迎报名。01背景本文简要介绍一篇关于 LLM 推理量化评估的文章。虽然文中某些结论可能与许多人的直觉不符,但在真实业务场景中,我们得出的结论却与这些发现非常相似。例如,在面试中与一些候选人讨论 LLM 推理量化时,尽管不少人使用了 H20/H800/4090 等 GPU 用于 LLM 推理,仍普遍坚持使用 INT8 量化,而极少尝试 FP8 推理;此外,也有不少人认为 NVIDIA 的高端 GPU(如 A100 和 H100)主要适用于训练场景,在推理中的成本过高,从而忽视了在推理中使用这些硬件的优势和潜力。
我们的一些实践经验是:针对 LLM 推理场景,FP8 往往比 INT8、AWQ-INT4 这些方案具有更小的损失,比如 FP8 往往在 1% 以内,而 AWQ-INT4 甚至可能达到 2%-3%,尤其是 INT8
原文链接:LLM 推理量化评估:FP8、INT8 与 INT4 的全面对比
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...