「还是谷歌好」,离职创业一年,我才发现训练大模型有这么多坑

AIGC动态6个月前发布 机器之心
10 0 0

「还是谷歌好」,离职创业一年,我才发现训练大模型有这么多坑

AIGC动态欢迎阅读

原标题:「还是谷歌好」,离职创业一年,我才发现训练大模型有这么多坑
关键字:集群,模型,硬件,提供商,问题
文章来源:机器之心
内容字数:9439字

内容摘要:


机器之心报道
编辑:蛋酱、小舟Karpathy:中肯的,一针见血的。
如何在不到一年的时间里创办一家公司、筹集资金、购买芯片,并搭建出追赶 Gemini pro/GPT 3.5 的 LLM?
很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇,但真正走完「从零开始」这一流程的人很少。我们普遍认为,储备技术人才是前提,掌握核心算法是关键,但实际上,工程实践中冒出来的挑战,也实在令人头疼。
一年前,乘着大模型的热潮,Yi Tay 离开了工作 3 年多的谷歌,参与创办了一家名为 Reka 的公司并担任首席科学家,主攻大型语言模型。
在谷歌时,Yi Tay 参与过许多知名的大型语言模型和多模态模型工作,包括 PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI、MUM 等。即使经验如此深厚,他还是遇到了以往无法想象的困难。为了帮助更多创业者避雷,Yi Tay 在一篇博客中分享了自己踩过的那些「坑」。
「计算稀缺和不可靠的计算提供商使事情比预期困难得多,但我们凭借强大的技术实力渡过了难关。终于,我写了这篇博文,揭示了其中的一些挑战和经验教训。我希望这篇


原文链接:「还是谷歌好」,离职创业一年,我才发现训练大模型有这么多坑

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...