千卡集群大模型训练思考与总结

AIGC动态1年前 (2024)发布算法邦

千卡集群大模型训练思考与总结

AIGC动态欢迎阅读

原标题：千卡集群大模型训练思考与总结
关键字：报告,模型,猩猩,集群,都会
文章来源：算法邦
内容字数：0字

内容摘要：

直播预告 | 6月20日晚7点，「智猩猩机器人新青年讲座」第8讲正式开讲，清华大学THUNLP lab在读博士胡锦毅将直播讲解《面向多模态大模型的具身智能平台LEGENT》，欢迎扫名~原文：https://www.zhihu.com/question/650979052/answer/3455112382
大模型这个概念出来至今也有一年多的时间了，刚开始的时候我们觉得6B、13B的模型还挺大，现在觉得也就洒洒水啦；当前大家普遍追求的是训练65B、175B甚至更大参数量的模型，而训练这种规模的模型又不是一件容易的事情（因为我自己训过，知道里面坑很多，但是又感觉不容易沉淀一些方法或者经验论的东西）。
正如@Frossmann的那句话：
任何一个小规模训练上的问题，放大几百几千倍之后，都有可能成为不可忽视的问题。所以，真正的关键不是在于有没有用过千卡GP训练过模型，而是有没有从头至尾，一路披荆斩棘的自己淌出来一条可重复的模型训练的技术路线！
最宝贵的财富，当就是一条可重复的模型训练的技术路线。
在千卡集群下训练的难点分为两方面，AI Infra 和 Training Framework。

原文链接：千卡集群大模型训练思考与总结