开源大模型推理引擎现状及常见推理优化方法

AIGC动态欢迎阅读

原标题：开源大模型推理引擎现状及常见推理优化方法
关键字：模型,引擎,解读,知乎,侵权
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

讲座预告11月1日上午10点，南开大学在读博士李森茂，将以《基于扩散模型编码器模块的推理加速》为主题进行直播讲解，欢迎扫名~导读作者为齐夏
原文来自知乎，地址：https://zhuanlan.zhihu.com/p/755874470
本文只做学术/技术分享，如有侵权，联系删文。01前言上个月sglang-v0.3.0和vllm-v0.6.0前后脚发布之后，就一直想总结梳理一下现在主流的大模型推理引擎。因为我觉得这也算是一个有意义的节点吧，从此开源大模型推理引擎总算是由”非常粗糙，但是能用”的阶段迈入到了”好用，稍微有那么点粗糙”的阶段。
大模型的推理引擎实际也就是近一两年才开始飞速发展，从最开始的tgi和vllm并驾齐驱到如今sglang、lmdeply的异军突起，整个开源社区都是非常有活力的。但是正如之前所说，从长远的一个视角看如今的开源引擎实际上都还是比较粗糙的，大家都是在摸索中前进。另一方面也是因为现在全世界的目光都聚焦在llm这里，新技术的更新换代太快了，做好一个大模型的推理引擎要做的事情实在是太太太太多了。除了要支持日新月异的新模型和新硬件，还要不断关心学术界最新的p

原文链接：开源大模型推理引擎现状及常见推理优化方法