从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+
关键字：向量,矩阵,注意力,权重,模型
文章来源：量子位
内容字数：8026字

内容摘要：

西风发自凹非寺量子位 | 公众号 QbitAI让大神Andrej Karpathy一键三连❤️（点赞+转发+评论），一个教你从头开始实现Llama3的代码库爆火。
X上转赞收藏量超6.8k，GitHub揽星2k+。
火就火在，它教你从头用Meta开源的权重进行推理，详细解释和展开了注意力机制中多个头的矩阵乘法、位置编码以及所有中间层。
换句话说，他解释了每行代码都在干啥。
Karpathy看后直呼打造者Nishant Aklecha（后文暂称“纳哥”）是个有品的人：
完全展开后，比起模块相互嵌套和调用时，更容易理解每一步具体在做什么。
网友们对其也是赞不绝口，纷纷致敬：
话不多说，一起来看纳哥是如何手把手教的。
（量子位在不改变原意的基础上，进行了编译整理）
从头实现llama3在运行纳哥提供的文件前，大伙儿需要预先下载Meta官方提供的Llama3模型权重。
纳哥表示自己没搞器，推荐用Karpathy的现成简洁版BPE代码。PS：
“字节级（byte-level）”BPE算法，在UTF-8编码的字符串上运行，广泛应用于大模型分词。Karpathy提供的这个代码库包含两个分词器，都

原文链接：从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+