vLLM这一年的新特性以及后续规划（总结版!）

AIGC动态欢迎阅读

原标题：vLLM这一年的新特性以及后续规划（总结版!）
关键字：模型,缓存,性能,前缀,内存
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

大会预告12月5日-6日，2024中国生成式AI大会（上海站）举办。将邀请50+位嘉宾围绕大模型、AI Infra、端侧生成式AI、AI视频生成和具身智能等议题进行同台分享和讨论。欢迎报名或购票。本文来自The State of vLLM | Ray Summit 2024 && RoadMap的分享，带大家一起回顾下vllm发展历史、过去一年的发展及接下来Q4规划。感兴趣的也可以查看原视频：https://www.youtube.com/watch?v=4HPRf9nDZ6Q[1]
01过去一年vLLM的工作内容记得vLLM在九月初更新了一个版本[2]，性能有了明显的提升（支持了multi step，因为减少了CPU overhead，会对吞吐会有提升，但是带来的副作用是TTFT和ITL会变大），某些场景确实带来了收益。
vLLM在2024年更新了很多内容～首先是模型支持，支持几乎所有的llm和vlm模型且效率非常高，这点确实要比TRT-LLM支持更快更方便，涉及到底层改动支持的模型，TRT-LLM因为底层限制只能提个issue等官方支持。而vLLM就很方便，目前vLLM支持的模型有

原文链接：vLLM这一年的新特性以及后续规划（总结版!）