AIGC动态欢迎阅读
原标题:1000行C语言搓出GPT-2!AI大神Karpathy新项目刚上线就狂揽2.5k星
关键字:模型,语言,代码,权重,分词
文章来源:新智元
内容字数:8590字
内容摘要:
新智元报道编辑:桃子 好困
【新智元导读】训大模型的方法可能要被革新了!AI大神Karpathy发布的新项目仅用1000行的C语言训完GPT-2,而不再依赖庞大的GPT-2库。他本人预告,即将上线新课。断更近一个月,Karpathy终于上线了。
这次不是AI大课,而是带来一个新项目。
仅用1000行纯C语言训完GPT-2。
想象一下,如果我们能够不依赖于庞大的PyTorch(245MB)和cPython(107MB)库,仅仅使用纯C语言就能训练大型语言模型(LLM),那会怎样?
现在,借助llm.c,这件听起来似乎不太可能的事,已经成为了现实!
这个项目的亮点在于,它仅用约1000行简洁的C代码,就实现了在普通计算机处理器(CPU)上训练GPT-2模型的能力。
而且,这份代码不仅可以立即编译运行,其训练结果也和PyTorch版本的GPT-2完全一致。
之所以选择GPT-2作为起点,是因为它标志着大型语言模型发展史上的一个重要里程碑,是第一次以我们现在所熟悉的形式整合了这样的技术栈,并且模型权重也是公开可获取的。
这一项目刚刚发布几个小时,已经获得了2.5k星。
项目地址:https:
原文链接:1000行C语言搓出GPT-2!AI大神Karpathy新项目刚上线就狂揽2.5k星
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...