NVIDIA TensorRT官网
NVIDIA TensorRT是一款高性能深度学习推理SDK,可优化推理性能、加速各种工作负载,并支持大型语言模型推理。
网站服务:生产效率,深度学习推理,高性能计算,tensorrt,deeplearning,inferenceoptimizer,inferenceplatform,sdk,nvidia,商业AI,生产效率,深度学习推理,高性能计算。
NVIDIA TensorRT简介
Helps developers to optimize inference, reduce latency, and deliver high throughput for inference applications.
什么是”NVIDIA TensorRT”?
NVIDIA TensorRT是一款高性能深度学习推理SDK,包括深度学习推理优化器和运行时,可为推理应用程序提供低延迟和高吞吐量。
“NVIDIA TensorRT”有哪些功能?
1. 提高推理速度:基于NVIDIA TensorRT的应用程序在推理过程中比仅使用CPU的平台快36倍,可优化在所有主要框架上训练的神经网络模型,通过高精度校准实现低精度量化,并部署到超大规模数据中心、嵌入式平台或汽车产品平台。
2. 优化推理性能:TensorRT基于NVIDIA CUDA并行编程模型,可通过量化、层和张量融合、内核调优等技术对推理进行优化。
3. 加速各种工作负载:TensorRT提供INT8量化感知训练和后训练量化以及浮点16(FP16)优化,用于部署深度学习推理应用,如视频流、推荐系统、欺诈检测和自然语言处理。降低精度推理可显著减少延迟,适用于许多实时服务、自动驾驶和嵌入式应用。
4. 部署、运行和扩展:TensorRT优化的模型可以使用NVIDIA Triton部署、运行和扩展,Triton是一个开源的推理服务软件,其中包括TensorRT作为其后端之一。使用Triton的优势包括动态批处理和并发模型执行的高吞吐量,以及模型集合、流式音视频输入等功能。
应用场景:
1. 大型语言模型推理:NVIDIA TensorRT-LLM是一个开源库,可在NVIDIA AI平台上加速和优化最新的大型语言模型(LLM)的推理性能。它允许开发人员在不需要深入了解C++或CUDA的情况下,使用高性能和快速定制的方式进行新的LLM实验。
“NVIDIA TensorRT”如何使用?
1. 购买NVIDIA AI Enterprise,获取TensorRT和TensorRT-LLM的完整AI软件平台,实现安全、稳定、可管理和支持的关键AI推理。
2. 下载TensorRT二进制文件或从NVIDIA NGC获取TensorRT容器,也可以使用NGC容器中的PyTorch、TensorFlow和Triton Inference Server集成TensorRT。
3. 探索更多开发资源,了解如何优化和部署TensorRT应用于数据中心、嵌入式和汽车环境。
NVIDIA TensorRT官网入口网址
https://developer.nvidia.com/tensorrt
OpenI小编发现NVIDIA TensorRT网站非常受用户欢迎,请访问NVIDIA TensorRT网址入口试用。
数据统计
数据评估
本站OpenI提供的NVIDIA TensorRT都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由OpenI实际控制,在2024年 4月 18日 上午10:38收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,OpenI不承担任何责任。