TensorRT-LLM保姆级教程（二）-离线环境搭建、模型量化及推理

AIGC动态欢迎阅读

原标题：TensorRT-LLM保姆级教程（二）-离线环境搭建、模型量化及推理
关键字：模型,权重,引擎,参数,缩放
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

开讲预约随着大模型的爆火，投入到生产环境的模型参数量规模也变得越来越大（从数十亿参数到千亿参数规模），从而导致大模型的推理成本急剧增加。因此，市面上也出现了很多的推理框架，用于降低模型推理延迟以及提升模型吞吐量。
本系列将针对TensorRT-LLM推理进行讲解。本文为该系列第二篇，将基于Bloom进行模型量化及推理。
01环境搭建基础配置：
CUDA：12.2
镜像：nvcr.io/nvidia/pytorch:23.10-py3
由于服务器无法访问，只能预先准备好镜像，安装包、编译源码等，接下来准备安装 TensorRT-LLM，推荐使用 Docker 构建和运行 TensorRT-LLM，整个安装步骤参考 TensorRT-LLM 中构建 Docker 镜像的步骤。
首先，进入Docker容器。
docker run -dt –name tensorrt_llm_lgd \–restart=always \–gpus all \–network=host \–shm-size=4g \-m 64G \-v /home/guodong.li/workspace:/wo

原文链接：TensorRT-LLM保姆级教程（二）-离线环境搭建、模型量化及推理

联系作者

文章来源：智猩猩GenAI
作者微信：
作者简介：

阅读原文

# AIGC动态 # 参数 # 引擎 # 权重 # 模型 # 缩放

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

TensorRT-LLM保姆级教程（二）-离线环境搭建、模型量化及推理

AIGC动态欢迎阅读

内容摘要：

联系作者

重磅！中科院自动化所开发基于内部复杂性的新型类脑网络模型有望实现AGI

苹果退出OpenAI新一轮融资/余承东称「四界」底层技术都是华为把握/《黑神话：悟空》再次登顶 IGN年度游戏

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点

TensorRT-LLM保姆级教程（二）-离线环境搭建、模型量化及推理

AIGC动态欢迎阅读

内容摘要：

联系作者

重磅！中科院自动化所 开发基于内部复杂性的新型类脑网络模型有望实现AGI

苹果退出OpenAI新一轮融资/余承东称「四界」底层技术都是华为把握/《黑神话：悟空》再次登顶 IGN年度游戏

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点

重磅！中科院自动化所开发基于内部复杂性的新型类脑网络模型有望实现AGI