250行代码从头搭建Llama 3,GitHub一天4.6k星!Karpathy大赞

AIGC动态6个月前发布 新智元
9 0 0

250行代码从头搭建Llama 3,GitHub一天4.6k星!Karpathy大赞

AIGC动态欢迎阅读

原标题:250行代码从头搭建Llama 3,GitHub一天4.6k星!Karpathy大赞
关键字:向量,维度,注意力,权重,矩阵
文章来源:新智元
内容字数:25704字

内容摘要:


新智元报道编辑:乔杨 好困
【新智元导读】Llama 3发布一个月后,一位开发者在GitHub上创建了名为「从头开始实现Llama 3」的项目,引起了开源社区的广泛关注。代码非常详细地展现了Llama所使用的Transformer架构,甚至让Andrej Karpathy亲自下场「背书」。Llama系列作为为数不多的优质开源LLM,一直受到开发者们的追捧。在Hugging Face社区的文本生成模型中,几乎是「霸榜」的存在。
就在520这天,一位名叫Nishant Aklecha的开发者在推特上宣布了自己的一个开源项目,名为「从头开始实现Llama 3」。
这个项目详细到什么程度呢——
矩阵乘法、注意力头、位置编码等模块全部都拆开解释。
而且项目全部用Jupyter Notebook写成,小白都可以直接上手运行。
堪比哈佛NLP小组曾经出品的「The Annotated Transformer」。
https://nlp.seas.harvard.edu/annotated-transformer/
才一天多的时间,小哥发表的这篇推特已经有32万次阅读,甚至被Andrej Karpa


原文链接:250行代码从头搭建Llama 3,GitHub一天4.6k星!Karpathy大赞

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...