模型层优化MoE之外,算力基础设施也一起升级
原标题:刚刚,DeepSeek开源MoE训练、推理EP通信库DeepEP,真太Open了!
文章来源:机器之心
内容字数:3878字
DeepSeek开源周:高效MoE通信库DeepEP震撼发布
上周五,DeepSeek宣布开启为期一周的开源活动,计划连续开源五个软件库。继首个项目FlashMLA(一款用于Hopper GPU的高效MLA解码核)获得近8k星标后,DeepSeek于今日开源了第二个项目——DeepEP,一个专为混合专家模型(MoE)训练和推理优化的通信库,短短数小时内星标已破千。
1. DeepEP:高效MoE通信的利器
在分布式训练环境中,尤其对于MoE模型,高效的数据传递至关重要。DeepEP旨在解决MoE模型中“专家并行”导致的负载不均衡问题,它通过以下几个方面提升了效率:
- 高效优化的All-to-All通信。
- 支持NVLink和RDMA的节点内/跨节点通信。
- 训练及推理预填充阶段的高吞吐量计算核心。
- 推理解码阶段的低延迟计算核心。
- 原生支持FP8数据分发。
- 灵活控制GPU资源,实现计算与通信的高效重叠。
这些优化有效减少了数据传输瓶颈,提升了处理速度,并避免了计算和通信的互相等待。
2. DeepEP的性能与创新
DeepEP在Hopper架构的H800 GPU上进行了测试,分别测试了常规内核(使用NVLink和RDMA)和低延迟内核(纯RDMA)。测试结果显示,DeepEP在处理大规模MoE模型时,展现出显著的性能提升。值得注意的是,DeepEP使用了未公开的PTX指令ld.global.nc.L1::no_allocate.L2::256B
,虽然存在未定义行为的风险,但在Hopper架构上测试有效,并大幅提升性能。用户可在遇到兼容性问题时选择禁用此指令。
3. 开源的意义与质疑的回应
DeepEP的开源,连同之前的FlashMLA,一定程度上回应了此前对DeepSeek技术的质疑。一些人曾质疑DeepSeek-R1的性能提升是通过模型蒸馏而非技术创新实现的,也有人质疑其低报了训练所需的GPU数量。DeepEP的开源,以及其在MoE模型通信方面的显著优化,为DeepSeek的技术实力提供了有力证明,体现了其在AI基础设施方面的技术创新。
4. 未来展望
DeepSeek开源周仍在继续,此次DeepEP的发布展现了其在MoE模型优化方面的深厚技术积累。文章结尾处,作者对DeepSeek接下来的开源项目进行了预告,并以“Real OPENAI has born!”作为结尾,表达了对DeepSeek未来发展的期待。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台