五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活
关键字：模型,报告,多少钱,节点,内存
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：杜伟、泽南论老黄卖铲子的技术含量。2019 年 2 月，OpenAI 发布了 GPT-2，因为在文本生成上的优异表现，以及对于预训练 Transformer 架构的充分运用，被认为是如今大预言模型的「始祖」。
五年后的今天，训练 GPT-2 这样 15 亿参数的大模型，只需要花费 672 美元，在一个 8XH100 的 GPU 节点上跑 24 个小时就可以搞定了。
本周四，前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 在他纯 C 语言复现 GPT-2 大模型的项目「llm.c」的最新进展中分享了他的训练心得：令人难以置信的是，由于计算硬件（英伟达 H100 GPU）、软件（CUDA、cuBLAS、cuDNN、FlashAttention 等）和数据质量（例如 FineWeb-Edu 数据集）的改进，过去 5 年间，大语言模型的训练成本大幅下降。Karpathy 表示，对于此次实践，算法遵循 GPT-2/3 论文基本保持原样不变。
当年 OpenAI 训练 GPT-2 花费了多少钱？这是个至今仍然未知的数字。Karpath

原文链接：五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活