「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑
关键字：集群,模型,硬件,提供商,问题
文章来源：机器之心
内容字数：9439字

内容摘要：

机器之心报道
编辑：蛋酱、小舟Karpathy：中肯的，一针见血的。
如何在不到一年的时间里创办一家公司、筹集资金、购买芯片，并搭建出追赶 Gemini pro/GPT 3.5 的 LLM？
很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇，但真正走完「从零开始」这一流程的人很少。我们普遍认为，储备技术人才是前提，掌握核心算法是关键，但实际上，工程实践中冒出来的挑战，也实在令人头疼。
一年前，乘着大模型的热潮，Yi Tay 离开了工作 3 年多的谷歌，参与创办了一家名为 Reka 的公司并担任首席科学家，主攻大型语言模型。
在谷歌时，Yi Tay 参与过许多知名的大型语言模型和多模态模型工作，包括 PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI、MUM 等。即使经验如此深厚，他还是遇到了以往无法想象的困难。为了帮助更多创业者避雷，Yi Tay 在一篇博客中分享了自己踩过的那些「坑」。
「计算稀缺和不可靠的计算提供商使事情比预期困难得多，但我们凭借强大的技术实力渡过了难关。终于，我写了这篇博文，揭示了其中的一些挑战和经验教训。我希望这篇

原文链接：「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑