AIGC动态欢迎阅读
内容摘要:
01LLaMA-Model在transformers仓库中可以看到llama的源码,首先是LlamaModel类,继承自PreTrainedModel,这个类是所有模型的基类,包含了一些通用的方法,比如保存模型、加载模型、初始化权重等。
继承关系为:LlamaModel-> LlamaPreTrainedModel-> PreTrainedModel
LlamaConfig
LlamaConfig 中主要是定义一些参数,比如vocab_size、hidden_size、num_hidden_layers、num_attention_heads等。所有的参数有默认值,可以直接创建cofing就能用。
config = LlamaConfig()
LlamaModel 初始化
设置了模型的两个属性:padding_idx(用于指定填充标记的索引),vocab_size(词汇表的大小)
初始化了模型的嵌入层、解码器层、归一化层
嵌入层(nn.Embedding):模型使用嵌入层将输入的标记映射成密集的向量表示。
解码器层(nn.ModuleList()):模型包含多个解码器层,这些层都是由
原文链接:LLaMA开源大模型源码分析!
联系作者
文章来源:算法邦
作者微信:allplusai
作者简介:「算法邦」,隶属于智猩猩,关注大模型、生成式AI、计算机视觉三大领域的研究与开发,提供技术文章、讲座、在线研讨会。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...