LLaMA开源大模型源码分析！

AIGC动态3年前 (2023)发布算法邦

LLaMA开源大模型源码分析！

AIGC动态欢迎阅读

原标题：LLaMA开源大模型源码分析！
关键字：张量,模型,初始化,代码,权重
文章来源：算法邦
内容字数：17320字

内容摘要：

01LLaMA-Model在transformers仓库中可以看到llama的源码，首先是LlamaModel类，继承自PreTrainedModel，这个类是所有模型的基类，包含了一些通用的方法，比如保存模型、加载模型、初始化权重等。
继承关系为：LlamaModel-> LlamaPreTrainedModel-> PreTrainedModel
LlamaConfig
LlamaConfig 中主要是定义一些参数，比如vocab_size、hidden_size、num_hidden_layers、num_attention_heads等。所有的参数有默认值，可以直接创建cofing就能用。
config = LlamaConfig()
LlamaModel 初始化
设置了模型的两个属性:padding_idx（用于指定填充标记的索引），vocab_size（词汇表的大小）
初始化了模型的嵌入层、解码器层、归一化层
嵌入层（nn.Embedding）：模型使用嵌入层将输入的标记映射成密集的向量表示。
解码器层（nn.ModuleList()）：模型包含多个解码器层，这些层都是由

原文链接：LLaMA开源大模型源码分析！