AIGC动态欢迎阅读
原标题:前谷歌科学家离职创业1年,自述训练LLM卡在算力上!买卡就像中彩票,Karpathy转赞
关键字:集群,模型,硬件,提供商,代码
文章来源:新智元
内容字数:8977字
内容摘要:
新智元报道编辑:桃子
【新智元导读】一家大模型初创公司从创立到训练出大模型,要克服怎样的难题?前谷歌科学家离职后创业一年,发文自述算力是训练大模型的难点。前谷歌大脑科学家Yi Tay去年3月离职后,创办了一家初创公司。
创业一年,他发文表示「痛并快乐着」。
在这篇博文中,我讨论了:
1. 在不同计算提供商中采购计算和差异的经验。我们最大的发现/惊喜是差异超级不同,几乎是人们可以获得的「硬件彩票」!
2. 讨论「野外」基础设施/代码,并过渡到我在谷歌的习惯
3. 训练模型时的新思维方式。
在整个创业过程中,他认为最大的困难便是——算力稀缺、算力提供商差异巨大,让大模型的训练比预期要难得多。
对此,Yi Tay写了一篇长文,自述了从0开始如何创办一家公司,筹集资金、购买芯片,训练出了能够与Gemini pro/GPT 3.5,甚至超越其他LLM的模型。
Karpathy对此表示深刻地赞同:「这篇文章精彩地讨论了一个鲜为人知的话题:训练LLM的难点」。
在大公司维护计算集群的时候,随着规模扩大,集群管理更像是生物学而非工程学。
工程师需要像「保姆」一样密切监控训练过程,关注关键指标,一旦出
原文链接:前谷歌科学家离职创业1年,自述训练LLM卡在算力上!买卡就像中彩票,Karpathy转赞
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...