刚刚,DeepSeek开源MoE训练、推理EP通信库DeepEP,真太Open了!

AIGC动态1个月前发布 机器之心
384 0 0

模型层优化MoE之外,算力基础设施也一起升级

刚刚,DeepSeek开源MoE训练、推理EP通信库DeepEP,真太Open了!

原标题:刚刚,DeepSeek开源MoE训练、推理EP通信DeepEP,真太Open了!
文章来源:机器之心
内容字数:3878字

DeepSeek开源周:高效MoE通信库DeepEP震撼发布

上周五,DeepSeek宣布开启为期一周的开源活动,计划连续开源五个软件库。继首个项目FlashMLA(一款用于Hopper GPU的高效MLA解码核)获得近8k星标后,DeepSeek于今日开源了第二个项目——DeepEP,一个专为混合专家模型(MoE)训练和推理优化的通信库,短短数小时内星标已破千。

1. DeepEP:高效MoE通信的利器

在分布式训练环境中,尤其对于MoE模型,高效的数据传递至关重要。DeepEP旨在解决MoE模型中“专家并行”导致的负载不均衡问题,它通过以下几个方面提升了效率:

  1. 高效优化的All-to-All通信。
  2. 支持NVLink和RDMA的节点内/跨节点通信。
  3. 训练及推理预填充阶段的高吞吐量计算核心。
  4. 推理解码阶段的低延迟计算核心。
  5. 原生支持FP8数据分发。
  6. 灵活控制GPU资源,实现计算与通信的高效重叠。

这些优化有效减少了数据传输瓶颈,提升了处理速度,并避免了计算和通信的互相等待。

2. DeepEP的性能与创新

DeepEP在Hopper架构的H800 GPU上进行了测试,分别测试了常规内核(使用NVLink和RDMA)和低延迟内核(纯RDMA)。测试结果显示,DeepEP在处理大规模MoE模型时,展现出显著的性能提升。值得注意的是,DeepEP使用了未公开的PTX指令ld.global.nc.L1::no_allocate.L2::256B,虽然存在未定义行为的风险,但在Hopper架构上测试有效,并大幅提升性能。用户可在遇到兼容性问题时选择禁用此指令。

3. 开源的意义与质疑的回应

DeepEP的开源,连同之前的FlashMLA,一定程度上回应了此前对DeepSeek技术的质疑。一些人曾质疑DeepSeek-R1的性能提升是通过模型蒸馏而非技术创新实现的,也有人质疑其低报了训练所需的GPU数量。DeepEP的开源,以及其在MoE模型通信方面的显著优化,为DeepSeek的技术实力提供了有力证明,体现了其在AI基础设施方面的技术创新。

4. 未来展望

DeepSeek开源周仍在继续,此次DeepEP的发布展现了其在MoE模型优化方面的深厚技术积累。文章结尾处,作者对DeepSeek接下来的开源项目进行了预告,并以“Real OPENAI has born!”作为结尾,表达了对DeepSeek未来发展的期待。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...