AIGC动态欢迎阅读
原标题:OpenAI创始大神手搓千行C代码训练GPT,附PyTorch迁移教程
关键字:项目,模型,表示,嘉宾,峰会
文章来源:量子位
内容字数:4674字
内容摘要:
明敏 发自 凹非寺量子位 | 公众号 QbitiAI大神卡帕西(Andrej Karpathy)刚“复工”,立马带来神作:
纯C语言训练GPT,1000行代码搞定!,不用现成的深度学习框架,纯手搓。
发布仅几个小时,已经揽星2.3k。
它可以立即编译和运行,和PyTorch完全兼容。
卡帕西使用的示例是GPT-2,但Llama 2和Gemma等也适用。
项目发布后,他还给出了从PyTorch迁移到C的教程。
网友们直呼:他甚至都不用C++……
而且就连怎么让大模型如法炮制的提示词,他也放了出来。现在已经有人在用Devin尝试ing。
手动实现每个层前向/反向传播选择用GPT-2的原因很简单,有模型权重,采用了堆栈式的Transformer模型结构。
项目核心的重点包括:
直接在C/CUDA上训练LLM,速度接近PyTorch
通过在CPU版本中使用SIMD指令(如AVX2和NEON)聊加速CPU版本
支持更先进的架构,比如Llama2和Gemma
卡帕西解释,他在开始时分配了所有所需内存,训练期间内存占用保持不变,只是数据在不同批次之间动态流动。
关键在于手动实现每个单独层的前向传播和
原文链接:OpenAI创始大神手搓千行C代码训练GPT,附PyTorch迁移教程
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...