LLaMa 量化部署常用方案总结

AIGC动态1年前 (2024)发布算法邦

LLaMa 量化部署常用方案总结

AIGC动态欢迎阅读

原标题：LLaMa 量化部署常用方案总结
关键字：模型,速度,报告,知乎,腾讯
文章来源：算法邦
内容字数：10491字

内容摘要：

，智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会，阿里巴巴通义千问大模型技术负责人周畅，「清华系Sora」生数科技CEO唐家渝，云天励飞“云天天书”大模型技术负责人余晓填，Open-Sora开发团队潞晨科技创始人尤洋，鸿博股份副总裁、英博数科CEO周韡韡，优必选研究院执行院长焦继超，科大讯飞人形机器人首席科学家季超，腾讯研究科学家张驰等20+位嘉宾已确认带来演讲和报告，欢迎报名。导读本文转载自公众号：极市平台，原文来自知乎，作者为Kevin吴嘉文，本文讨论部署 LLaMa 系列模型常用的几种方案，并作速度测试。包括 Huggingface 自带的 LLM.int8()，AutoGPTQ，GPTQ-for-LLaMa，exllama，llama.cpp。
原文链接：https://zhuanlan.zhihu.com/p/641641929总结来看，对 7B 级别的 LLaMa 系列模型，经过 GPTQ 量化后，在 4090 上可以达到 140+ tokens/s 的推理速度。在 3070 上可以达到 40 tokens/s 的推理速度。
01LM.int8(

原文链接：LLaMa 量化部署常用方案总结