从零复现Llama3代码库爆火,大神Kapathy一键三连,GitHub狂揽2k+

AIGC动态6个月前发布 量子位
21 0 0

从零复现Llama3代码库爆火,大神Kapathy一键三连,GitHub狂揽2k+

AIGC动态欢迎阅读

原标题:从零复现Llama3代码库爆火,大神Kapathy一键三连,GitHub狂揽2k+
关键字:向量,矩阵,注意力,权重,模型
文章来源:量子位
内容字数:8026字

内容摘要:


西风 发自 凹非寺量子位 | 公众号 QbitAI让大神Andrej Karpathy一键三连❤️(点赞+转发+评论),一个教你从头开始实现Llama3的代码库爆火。
X上转赞收藏量超6.8k,GitHub揽星2k+。
火就火在,它教你从头用Meta开源的权重进行推理,详细解释和展开了注意力机制中多个头的矩阵乘法、位置编码以及所有中间层。
换句话说,他解释了每行代码都在干啥。
Karpathy看后直呼打造者Nishant Aklecha(后文暂称“纳哥”)是个有品的人:
完全展开后,比起模块相互嵌套和调用时,更容易理解每一步具体在做什么。
网友们对其也是赞不绝口,纷纷致敬:
话不多说,一起来看纳哥是如何手把手教的。
(量子位在不改变原意的基础上,进行了编译整理)
从头实现llama3在运行纳哥提供的文件前,大伙儿需要预先下载Meta官方提供的Llama3模型权重。
纳哥表示自己没搞器,推荐用Karpathy的现成简洁版BPE代码。PS:
“字节级(byte-level)”BPE算法,在UTF-8编码的字符串上运行,广泛应用于大模型分词。Karpathy提供的这个代码库包含两个分词器,都


原文链接:从零复现Llama3代码库爆火,大神Kapathy一键三连,GitHub狂揽2k+

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...