LLaMA开源大模型源码分析!

AIGC动态11个月前发布 算法邦
39 0 0

LLaMA开源大模型源码分析!

AIGC动态欢迎阅读

原标题:LLaMA开源大模型源码分析!
关键字:张量,模型,初始化,代码,权重
文章来源:算法邦
内容字数:17320字

内容摘要:


01LLaMA-Model在transformers仓库中可以看到llama的源码,首先是LlamaModel类,继承自PreTrainedModel,这个类是所有模型的基类,包含了一些通用的方法,比如保存模型、加载模型、初始化权重等。
继承关系为:LlamaModel-> LlamaPreTrainedModel-> PreTrainedModel
LlamaConfig
LlamaConfig 中主要是定义一些参数,比如vocab_size、hidden_size、num_hidden_layers、num_attention_heads等。所有的参数有默认值,可以直接创建cofing就能用。
config = LlamaConfig()
LlamaModel 初始化
设置了模型的两个属性:padding_idx(用于指定填充标记的索引),vocab_size(词汇表的大小)
初始化了模型的嵌入层、解码器层、归一化层
嵌入层(nn.Embedding):模型使用嵌入层将输入的标记映射成密集的向量表示。
解码器层(nn.ModuleList()):模型包含多个解码器层,这些层都是由


原文链接:LLaMA开源大模型源码分析!

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:「算法邦」,隶属于智猩猩,关注大模型、生成式AI、计算机视觉三大领域的研究与开发,提供技术文章、讲座、在线研讨会。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...