当大模型Scaling Law继续，万卡集群算力释放在「百舸」这里找到一条通途

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：当大模型Scaling Law继续，万卡集群算力释放在「百舸」这里找到一条通途
关键字：集群,模型,任务,利用率,芯片
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心原创
作者：杜伟在电影《天下无贼》中，葛优扮演的黎叔有这样一句经典的台词，「二十一世纪什么最贵？人才！」而随着人工智能行业进入到大模型时代，这一问题的答案已然变成了「算力」。
随着模型规模急剧扩张，参数已经飙升到了千亿甚至万亿级，业界开启了千模大战，AI 算力需求不可避免迎来式增长，无论是前期训练还是后期推理，都是如此。
在训练层面，OpenAI 曾在 2018 年做过估算，自 2012 年以来，AI 模型训练算力需求每 3.5 个月翻一番，每年所需算力增幅高达 10 倍，增速远远超出了芯片产业长期存在的摩尔定律（性能每 18 个月翻一番）。同时随着大模型及应用越来越多地部署到企业实际业务场景中，推理算力需求也水涨船高。
因此，指数级增长的算力需求对 GPU 等硬件提出了更高要求，大规模 GPU 算力集群成为必然选择。这也是为什么近年来国内外科技厂商纷纷布局 AI 算力基础设施，死磕万卡甚至 10 万卡集群。此外，大规模算力集群也越来越凸显训推一体的重要性，寻求在同一个集群中无缝切换大模型的训练和推理，简化用户部署流程。
虽然 GPU 集群可以满足大模型时代的算力需求，但面

原文链接：当大模型Scaling Law继续，万卡集群算力释放在「百舸」这里找到一条通途