一起理解下LLM的推理流程

AIGC动态欢迎阅读

原标题：一起理解下LLM的推理流程
关键字：阶段,模型,显存,可能会,开销
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

本文来源自Pytorch Conference 2024的talking —— Understanding the LLM Inference Workload，由NVIDIA的高级解决方案架构师讲述，感兴趣的可以看原演讲视频：
https://www.youtube.com/watch?v=z2M8gKGYws4&list=PL_lsbAsL_o2B_znuvm-pDtV_cRhpqZb8l&index=23[1]
本文总结和整理下其描述的基于TRT-LLM的LLM推理流程。
010×10 推理以下是简单的LLM推理流程（下图中输入 Write me a presentation… ），注意两个事儿：
我们的输入prompt是放在GPU中的，
然后output的时候，是一个一个出来的：LLM inference is hard，而且每次输出一个token都会这个将这个token之前的输入（也是tokens）全送进GPU再吐下一个token根据上述的LLM推理流程，很容易推理出：
输入的prompt token数越多，LLM反应越慢，因为LLM要处理你输入的prompt，这是要在G

原文链接：一起理解下LLM的推理流程