vLLM vs TensorRT-LLM 性能对比测试,基于0910较新版本

vLLM vs TensorRT-LLM 性能对比测试,基于0910较新版本

AIGC动态欢迎阅读

原标题:vLLM vs TensorRT-LLM 性能对比测试,基于0910较新版本
关键字:吞吐量,腾讯,速率,框架,大小
文章来源:智猩猩GenAI
内容字数:0字

内容摘要:


大会预告12月5日-6日,2024中国生成式AI大会(上海站)将举办。上海科大助理教授、博导顾家远,腾讯优图实验室天衍研究中心负责人吴贤,银河通用机器人合伙人张直政,趣丸科技副总裁贾朔,旷视研究院高级研究员李华东已确认参会,将围绕大模型、具身智能、AI视频生成带来分享,欢迎报名。翻译自:https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-1-an-overall-evaluation-88f281bf01c7该文章测试了最新版(9.10)trt-llm和vllm的性能,不过文中没有提到是否使用vllm在0.6.0版本更新的Multi-step Scheduling[1]。
vLLM 和 TensorRT-LLM 是我们熟知的大型语言模型(LLM)推理框架。**vLLM**[2] 是一个快速且易于使用的库,支持在多种设备上进行 LLM 推理和服务,包括 NVIDIA、AMD 和 Intel 的 GPU。相对地,**TensorRT-LLM**[3] 是一个高度优化的工具箱,专门为加速 NVIDIA GPU 上的推理性


原文链接:vLLM vs TensorRT-LLM 性能对比测试,基于0910较新版本

联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...