刚刚，DeepSeek开源MoE训练、推理EP通信库DeepEP，真太Open了！

AIGC动态5个月前发布机器之心

521 0 0

模型层优化MoE之外，算力基础设施也一起升级

刚刚，DeepSeek开源MoE训练、推理EP通信库DeepEP，真太Open了！

原标题：刚刚，DeepSeek开源MoE训练、推理EP通信库DeepEP，真太Open了！
文章来源：机器之心
内容字数：3878字

DeepSeek开源周：高效MoE通信库DeepEP震撼发布

上周五，DeepSeek宣布开启为期一周的开源活动，计划连续开源五个软件库。继首个项目FlashMLA（一款用于Hopper GPU的高效MLA解码核）获得近8k星标后，DeepSeek于今日开源了第二个项目——DeepEP，一个专为混合专家模型（MoE）训练和推理优化的通信库，短短数小时内星标已破千。

1. DeepEP：高效MoE通信的利器

在分布式训练环境中，尤其对于MoE模型，高效的数据传递至关重要。DeepEP旨在解决MoE模型中“专家并行”导致的负载不均衡问题，它通过以下几个方面提升了效率：

高效优化的All-to-All通信。
支持NVLink和RDMA的节点内/跨节点通信。
训练及推理预填充阶段的高吞吐量计算核心。
推理解码阶段的低延迟计算核心。
原生支持FP8数据分发。
灵活控制GPU资源，实现计算与通信的高效重叠。

这些优化有效减少了数据传输瓶颈，提升了处理速度，并避免了计算和通信的互相等待。

2. DeepEP的性能与创新

DeepEP在Hopper架构的H800 GPU上进行了测试，分别测试了常规内核（使用NVLink和RDMA）和低延迟内核（纯RDMA）。测试结果显示，DeepEP在处理大规模MoE模型时，展现出显著的性能提升。值得注意的是，DeepEP使用了未公开的PTX指令ld.global.nc.L1::no_allocate.L2::256B，虽然存在未定义行为的风险，但在Hopper架构上测试有效，并大幅提升性能。用户可在遇到兼容性问题时选择禁用此指令。

3. 开源的意义与质疑的回应

DeepEP的开源，连同之前的FlashMLA，一定程度上回应了此前对DeepSeek技术的质疑。一些人曾质疑DeepSeek-R1的性能提升是通过模型蒸馏而非技术创新实现的，也有人质疑其低报了训练所需的GPU数量。DeepEP的开源，以及其在MoE模型通信方面的显著优化，为DeepSeek的技术实力提供了有力证明，体现了其在AI基础设施方面的技术创新。

4. 未来展望

DeepSeek开源周仍在继续，此次DeepEP的发布展现了其在MoE模型优化方面的深厚技术积累。文章结尾处，作者对DeepSeek接下来的开源项目进行了预告，并以“Real OPENAI has born!”作为结尾，表达了对DeepSeek未来发展的期待。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

# AIGC动态 # DeepEP # DeepSeek # EP通信 # MoE训练 # 大模型推理

© 版权声明

文章版权归作者所有，未经允许请勿转载。

蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...