从infra的视角聊聊DeepSeek-V3

从infra的视角分享一些个人看法

从infra的视角聊聊DeepSeek-V3

原标题:从infra的视角聊聊DeepSeek-V3
文章来源:智猩猩GenAI
内容字数:5570字

DeepSeek-V3: 超大规模MoE模型训练与推理优化

本文总结了Lin Zhang博士关于DeepSeek-V3大模型技术报告的Infra视角解读。DeepSeek-V3在仅使用2000张H800和两个月时间内,训练出一个671B参数的MoE模型,取得了显著成果,展现了DeepSeek团队强大的算法和系统能力。

1. 模型结构:System-Algorithm Co-design

1.1 DeepSeek-V3沿用V2的MLA和MoE结构。MLA通过类似LoRA的方式降低KV Cache/Token开销,但其优势尚未完全展现,且增加了系统复杂度。

1.2 MoE结构采用大量“小专家”,显著提升模型稀疏性。V3拥有256个专家,总参数量达671B,但激活参数量仅为37B,相比V2的236B总参数(21B激活参数)更激进,且训练效率更高(每万亿token的GPU小时数为180K,V2为172.8K)。

1.3 V3还采用了auxiliary-loss-free策略缓解专家负载不均衡,并引入了multi-token prediction (MTP)技术,提升训练效果和推理效率。

2. 训练优化:FP8混合精度训练

2.1 DeepSeek-V3是首个成功使用FP8混合精度训练的大规模MoE模型。为了克服FP8数值溢出风险,V3采用细粒度的per-tile (1×128)和per-group (128×128)量化,降低量化误差,并使用E4M3格式。

2.2 虽然per-tile和per-group量化对模型收敛至关重要,但报告未给出FP8矩阵乘法算子效率,也缺乏per-token和per-channel量化方法的讨论。

2.3 V3使用BF16保存优化器状态,并对部分操作进行选择性重计算,节省显存,并采用64路专家并行、16路流水线并行和数据并行(ZeRO1)策略。

2.4 为了降低专家并行带来的all2all通信开销,V3采用分组路由,限制每个token仅激活4个节点上的专家,并通过流水线化节点间和节点内通信来最大化带宽利用率,将通信计算比例控制在约1:1,为通信隐藏创造条件。

3. 推理优化:PD分离与双流推理

3.1 DeepSeek-V3采用PD分离的策略,分别优化prefill和decode阶段。Prefill阶段采用4路张量并行+8路数据并行,最大化吞吐量;Decode阶段采用320路专家并行,降低时延并缓解负载不均衡。

3.2 为了提高设备利用率,DeepSeek-V3采用NanoFlow的双流推理策略,并发执行不同micro-batch的计算和通信任务。

总而言之,DeepSeek-V3在模型结构、训练优化和推理优化方面都进行了大量的创新和优化,实现了高效的超大规模MoE模型训练和部署,展现了其在算法和系统方面的领先技术实力。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止