五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活

五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活

AIGC动态欢迎阅读

原标题:五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活
关键字:模型,报告,多少钱,节点,内存
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
编辑:杜伟、泽南论老黄卖铲子的技术含量。2019 年 2 月,OpenAI 发布了 GPT-2,因为在文本生成上的优异表现,以及对于预训练 Transformer 架构的充分运用,被认为是如今大预言模型的「始祖」。
五年后的今天,训练 GPT-2 这样 15 亿参数的大模型,只需要花费 672 美元,在一个 8XH100 的 GPU 节点上跑 24 个小时就可以搞定了。
本周四,前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 在他纯 C 语言复现 GPT-2 大模型的项目「llm.c」的最新进展中分享了他的训练心得:令人难以置信的是,由于计算硬件(英伟达 H100 GPU)、软件(CUDA、cuBLAS、cuDNN、FlashAttention 等)和数据质量(例如 FineWeb-Edu 数据集)的改进,过去 5 年间,大语言模型的训练成本大幅下降。Karpathy 表示,对于此次实践,算法遵循 GPT-2/3 论文基本保持原样不变。
当年 OpenAI 训练 GPT-2 花费了多少钱?这是个至今仍然未知的数字。Karpath


原文链接:五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...