前谷歌科学家离职创业1年，自述训练LLM卡在算力上！买卡就像中彩票，Karpathy转赞

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：前谷歌科学家离职创业1年，自述训练LLM卡在算力上！买卡就像中彩票，Karpathy转赞
关键字：集群,模型,硬件,提供商,代码
文章来源：新智元
内容字数：8977字

内容摘要：

新智元报道编辑：桃子
【新智元导读】一家大模型初创公司从创立到训练出大模型，要克服怎样的难题？前谷歌科学家离职后创业一年，发文自述算力是训练大模型的难点。前谷歌大脑科学家Yi Tay去年3月离职后，创办了一家初创公司。
创业一年，他发文表示「痛并快乐着」。
在这篇博文中，我讨论了：
1. 在不同计算提供商中采购计算和差异的经验。我们最大的发现/惊喜是差异超级不同，几乎是人们可以获得的「硬件彩票」！
2. 讨论「野外」基础设施/代码，并过渡到我在谷歌的习惯
3. 训练模型时的新思维方式。
在整个创业过程中，他认为最大的困难便是——算力稀缺、算力提供商差异巨大，让大模型的训练比预期要难得多。
对此，Yi Tay写了一篇长文，自述了从0开始如何创办一家公司，筹集资金、购买芯片，训练出了能够与Gemini pro/GPT 3.5，甚至超越其他LLM的模型。
Karpathy对此表示深刻地赞同：「这篇文章精彩地讨论了一个鲜为人知的话题：训练LLM的难点」。
在大公司维护计算集群的时候，随着规模扩大，集群管理更像是生物学而非工程学。
工程师需要像「保姆」一样密切监控训练过程，关注关键指标，一旦出

原文链接：前谷歌科学家离职创业1年，自述训练LLM卡在算力上！买卡就像中彩票，Karpathy转赞