大模型笔记！以LLAMA为例，快速入门LLM的推理过程

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：大模型笔记！以LLAMA为例，快速入门LLM的推理过程
关键字：模型,知乎,分词,注意力,上下文
文章来源：算法邦
内容字数：38264字

内容摘要：

直播预告 | 下周一晚7点，「自动驾驶新青年讲座」第35讲正式开讲，LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive：大语言模型加持的闭环端到端自动驾驶框架》，欢迎扫名~本文借助llama这个模型快速入门LLM的推理过程，很多技术细节都是通用的，也适合其他的LLM。
这篇也算是总结的性质，仅需要的知识点都列出来，简单介绍一番。可能说的不够详细，想看具体细节的小伙伴可参考文中引用的相关详细文章。
本篇也可以作为CV快速入门NLP简易指南。当然只是推理哈，不涉及到训练，仅是从部署的角度考虑这个模型，如对文中内容有疑问，欢迎讨论。
01什么是LLMllama是LLM（LLM指大语言模型）模型的一种结构，llama这种模型的任务就是在阅读前n个单词后预测句子中下一个单词，输出取决于过去和现在输入，与未来无关。
过程大概是这样，每次输入模型会带上上一次输出的结果（不同于CV模型，CV模型输入只需要一次即可，一次推理即可得到结果）：
LLM-生成
一般来说，LLM模型主要由两个块组成：
编码器（左侧）：编码器接收输入并构建其表示形式（特征）。这意味着该模型被优化为从

原文链接：大模型笔记！以LLAMA为例，快速入门LLM的推理过程