AIGC动态欢迎阅读
内容摘要:
本文来源自Pytorch Conference 2024的talking —— Understanding the LLM Inference Workload,由NVIDIA的高级解决方案架构师讲述,感兴趣的可以看原演讲视频:
https://www.youtube.com/watch?v=z2M8gKGYws4&list=PL_lsbAsL_o2B_znuvm-pDtV_cRhpqZb8l&index=23[1]
本文总结和整理下其描述的基于TRT-LLM的LLM推理流程。
010×10 推理以下是简单的LLM推理流程(下图中输入 Write me a presentation… ),注意两个事儿:
我们的输入prompt是放在GPU中的,
然后output的时候,是一个一个出来的:LLM inference is hard,而且每次输出一个token都会这个将这个token之前的输入(也是tokens)全送进GPU再吐下一个token根据上述的LLM推理流程,很容易推理出:
输入的prompt token数越多,LLM反应越慢,因为LLM要处理你输入的prompt,这是要在G
原文链接:一起理解下LLM的推理流程
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...