Karpathy新教程爆火,网友抢着送他H100:从头复现GPT-2训练

AIGC动态4个月前发布 量子位
6 0 0

Karpathy新教程爆火,网友抢着送他H100:从头复现GPT-2训练

AIGC动态欢迎阅读

原标题:Karpathy新教程爆火,网友抢着送他H100:从头复现GPT-2训练
关键字:原版,小时,美元,工作,量子
文章来源:量子位
内容字数:0字

内容摘要:


梦晨 发自 凹非寺量子位 | 公众号 QbitAI大神Karpathy已经不满足于用C语言造Llama了!
他给自己的最新挑战:复现OpenAI经典成果,从基础版GPT-2开始。
挑战成功本身并不意外,但是只花费20美元、90分钟完成训练,Loss和评测还超越原版,就!有!点!过!分!了!。
不仅如此,他把复现过程写成了完整教程,果不其然再次火爆。
由于Karpathy自己租用的是A100云服务,训练124M版本花费20了美元。
不过有人按照教程用H100跑了一把,不仅训练时间更短,还更省钱了:43分钟完成,只花14美元。
另外Karpathy还自掏腰包200美元,为大家复现了350M版本的GPT-2。
但1.5B大杯版,照计算要花1周时间和2500美元,有点玩不起了,主要他手里也没有H100。
还好各路卡壕非常仗义,该出手时就出手:
有需要随时给你用!
只收你2美元一小时!
90分钟复现GPT-2这次Karpathy复现GPT-2,还是基于他的llama.c代码库,端到端完成训练。
代码库这些日子被他不断完善,现在启动训练非常简单:
具体来说,网络结构是GPT-2,但许多超参数设置遵


原文链接:Karpathy新教程爆火,网友抢着送他H100:从头复现GPT-2训练

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...