原标题:DeepSeek开源第二天:拉爆MoE训练和推理
文章来源:夕小瑶科技说
内容字数:5656字
DeepSeek开源DeepEP:MoE模型训练推理性能利器
DeepSeek近日开源了DeepEP,一个专为混合专家模型(MoE)训练和推理设计的通信库,旨在极致提升性能。DeepEP通过高效的All-to-All通信,在训练和推理场景下都实现了高吞吐和低延迟,堪称MoE模型的性能加速神器。
1. MoE与EP详解
混合专家模型(MoE)通过将模型拆分成多个“专家”子网络,根据输入数据选择合适的专家进行处理,从而提升计算效率。专家并行(EP)则是一种并行计算方式,将不同的专家分配到不同的GPU上,实现并行计算。MoE模型在推理时,并非所有专家都参与计算,例如DeepSeek-R1模型,其671B参数量在推理时仅激活37B,256个专家中仅激活8个。这过程中,需要高效的通信机制来协调不同GPU上的专家协同工作。
2. DeepEP的核心优势
DeepEP的核心在于其高效的All-to-All通信机制,它利用NVLink和RDMA技术,分别针对高吞吐和低延迟场景设计了两种通信内核:
- 高吞吐内核:利用NVLink和RDMA的组合,实现极高的吞吐量(实测最高达153GB/s,接近NVLink理论极限160GB/s),适用于训练和快速处理文本等场景。
- 低延迟内核:仅使用RDMA,将延迟降至微秒级(实测带宽最高达46GB/s),适用于对延迟敏感的大模型解码场景。
DeepEP还支持节点内/跨节点通信,并提供SM数量控制接口,灵活分配GPU资源。此外,其集成的通信计算重叠机制,通过后台并行接收数据,不占用任何SM资源,最大化GPU利用率。
3. DeepEP的技术细节
DeepEP通过以下技术手段实现了卓越的性能:
- 通信计算重叠:利用hook机制实现通信和计算重叠,在不影响计算的情况下完成数据传输。
- SM资源优化:DeepSeek在训练V3模型时,将部分SM资源专门用于通信任务,优化资源利用。
- PTX指令挖掘:DeepEP发现了并使用了NVIDIA文档中未记录的PTX指令`ld.global.nc.L1::no_allocate.L2::256B`,进一步提升性能(需注意其潜在的未定义行为)。
4. 总结
DeepEP作为首个用于MoE模型训练和推理的开源EP通信库,通过高效的通信机制和精细的资源管理,显著提升了MoE模型的性能。其高吞吐和低延迟的特性,使其成为大规模MoE模型训练和推理的理想选择。DeepEP的开源,为MoE模型的进一步发展提供了强有力的支持,也展现了DeepSeek在性能极致追求上的不懈努力。
联系作者
文章来源:夕小瑶科技说
作者微信:
作者简介:低负担解码AI世界,硬核也可爱!聚集35万AI发烧友、开发者和从业者,广泛覆盖互联网大厂中高管、AI公司创始人和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189