TensorRT-LLM保姆级教程(二)-离线环境搭建、模型量化及推理

TensorRT-LLM保姆级教程(二)-离线环境搭建、模型量化及推理

AIGC动态欢迎阅读

原标题:TensorRT-LLM保姆级教程(二)-离线环境搭建、模型量化及推理
关键字:模型,权重,引擎,参数,缩放
文章来源:智猩猩GenAI
内容字数:0字

内容摘要:


开讲预约随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。因此,市面上也出现了很多的推理框架,用于降低模型推理延迟以及提升模型吞吐量。
本系列将针对TensorRT-LLM推理进行讲解。本文为该系列第二篇,将基于Bloom进行模型量化及推理。
01环境搭建基础配置:
CUDA:12.2
镜像:nvcr.io/nvidia/pytorch:23.10-py3
由于服务器无法访问,只能预先准备好镜像,安装包、编译源码等,接下来准备安装 TensorRT-LLM,推荐使用 Docker 构建和运行 TensorRT-LLM,整个安装步骤参考 TensorRT-LLM 中构建 Docker 镜像的步骤。
首先,进入Docker容器。
docker run -dt –name tensorrt_llm_lgd \–restart=always \–gpus all \–network=host \–shm-size=4g \-m 64G \-v /home/guodong.li/workspace:/wo


原文链接:TensorRT-LLM保姆级教程(二)-离线环境搭建、模型量化及推理

联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...