vLLM vs TensorRT-LLM 性能对比测试，基于0910较新版本

AIGC动态欢迎阅读

原标题：vLLM vs TensorRT-LLM 性能对比测试，基于0910较新版本
关键字：吞吐量,腾讯,速率,框架,大小
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

大会预告12月5日-6日，2024中国生成式AI大会（上海站）将举办。上海科大助理教授、博导顾家远，腾讯优图实验室天衍研究中心负责人吴贤，银河通用机器人合伙人张直政，趣丸科技副总裁贾朔，旷视研究院高级研究员李华东已确认参会，将围绕大模型、具身智能、AI视频生成带来分享，欢迎报名。翻译自：https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-1-an-overall-evaluation-88f281bf01c7该文章测试了最新版（9.10）trt-llm和vllm的性能，不过文中没有提到是否使用vllm在0.6.0版本更新的Multi-step Scheduling[1]。
vLLM 和 TensorRT-LLM 是我们熟知的大型语言模型（LLM）推理框架。**vLLM**[2] 是一个快速且易于使用的库，支持在多种设备上进行 LLM 推理和服务，包括 NVIDIA、AMD 和 Intel 的 GPU。相对地，**TensorRT-LLM**[3] 是一个高度优化的工具箱，专门为加速 NVIDIA GPU 上的推理性

原文链接：vLLM vs TensorRT-LLM 性能对比测试，基于0910较新版本