Karpathy最新四小时视频教程:从零复现GPT-2,通宵运行即搞定

AIGC动态7个月前发布 机器之心
10 0 0

Karpathy最新四小时视频教程:从零复现GPT-2,通宵运行即搞定

AIGC动态欢迎阅读

原标题:Karpathy最新四小时视频教程:从零复现GPT-2,通宵运行即搞定
关键字:视频,部分内容,梯度,模型,部分
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
编辑:杜伟这是Karpathy「Neural Networks:zero to hero」系列视频的最新内容。AI 大牛 Andrej Karpathy 又「上新」了,这次一口气放出了长达四个小时的视频。
视频主题为「让我们来复现 GPT-2(1.24 亿参数)」。
Karpathy 表示,此次视频之所以这么长,是因为它很全面:从空文件开始,最后得到一个 GPT-2(124M)模型。
具体实现步骤包括如下:
首先构建 GPT-2 网络。
然后对其进行优化,以便快速训练。
然后通过参考 GPT-2 和 GPT-3 论文来设置训练运行优化和超参数。
然后进行模型评估。
然后祈祷好运,并去睡觉。
第二天早上,查看结果并享受有趣的模型生成。通宵运行的结果甚至非常接近 GPT-3(124M)模型。
该视频以「Zero To Hero」系列视频为基础,有些地方参考了以往视频。你可以根据该视频构建 nanoGPT 存储库,到最后大约有 90% 相似。
当然,Karpathy 上传了相关的 GitHub 存储库「build-nanogpt」,包含了全部提交历史,这样你可以一步步看到视频中


原文链接:Karpathy最新四小时视频教程:从零复现GPT-2,通宵运行即搞定

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...