直击算力焦虑，这家清华系 AI 创企搞了个千卡异构混训平台，算力利用率最高达 97.6%

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：直击算力焦虑，这家清华系 AI 创企搞了个千卡异构混训平台，算力利用率最高达 97.6%
关键字：华为,芯片,模型,通信,解读
文章来源：AI前线
内容字数：0字

内容摘要：

以 GPT-4 为主要代表的大模型在自然语言处理、机器翻译和文本生成等任务中表现出了卓越的效能，从而给各个领域带来了性的变化。随着模型的参数从数百万扩展到数十亿甚至数万亿，也带来了巨大的计算和内存挑战，大模型训练所用的大规模算力及相关技术成为大模型应用落地和产业发展最基本的支撑。然而随着对大规模集群需求的日益增加，算力荒的问题也逐渐显现，如何破局这一困境成为了行业亟待解决的关键问题。
7 月 4 日，在 2024 年世界人工智能大会 AI 基础设施论坛上，无问芯穹联合创始人兼 CEO 夏立雪发布了全球首个千卡规模异构芯片混训平台，和同构训练相比，千卡异构混合训练利用率最高达到了 97.6%。这也是全球首个可进行单任务千卡规模异构芯片混合训练的平台，具备万卡扩展性，支持包括 AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA 六种异构芯片在内的大模型混合训练。
当前，全球范围内在大模型训练领域，主流做法是结合 PyTorch、Megatron 等先进的计算框架与英伟达（NVIDIA）的 GPU 芯片进行高效分布式训练。尽管英伟达 GPU 在大模型训练所需的算力供给中占据主导地

原文链接：直击算力焦虑，这家清华系 AI 创企搞了个千卡异构混训平台，算力利用率最高达 97.6%