Profiling Data

AI工具1年前 (2025)发布 AI工具集

Profiling Data – DeepSeek开源训练和推理框架的性能分析数据

Profiling Data是一个强大的性能分析工具，专为DeepSeek开源的训练和推理框架设计，基于PyTorch Profiler捕获的详细程序运行数据。该工具能够帮助开发者深入分析和优化软件性能，从而提升整个系统的效率。

Profiling Data是什么

Profiling Data是DeepSeek开源训练和推理框架的性能分析数据，利用PyTorch Profiler记录程序运行过程中获取的详尽信息，旨在进行性能分析和优化。用户可以直接在Chrome或Edge浏览器中通过 chrome://tracing 或 edge://tracing 打开下载的数据进行可视化分析。Profiling Data详细记录了程序执行过程中时间消耗、资源利用率及通信模式等关键指标。在深度学习框架中，Profiling Data能够帮助开发者了解模型训练和推理过程中的计算与通信重叠策略、不同硬件资源的使用情况以及潜在的性能瓶颈。通过对这些数据的深入分析，开发者可以优化代码、调整并行策略，进而提高系统的整体效率。

Profiling Data

Profiling Data的主要功能

性能瓶颈发现：通过分析程序运行时的时间消耗和资源使用情况，帮助开发者快速识别性能瓶颈，例如哪些函数或模块消耗了过多的时间和资源。
资源使用分析：评估CPU、GPU和内存等硬件资源的使用情况，协助优化资源分配，避免资源的浪费。
通信模式分析：在分布式系统中，分析节点间的通信模式和延迟，优化通信策略以降低通信开销。
优化建议：为代码优化提供数据支持，帮助开发者选择合适的优化方案，例如并行化和缓存优化等。

Profiling Data的推理过程

预填充（Prefilling）：基于EP32和TP1（与DeepSeek V3/R1在线部署一致），提示长度设为4K，每个GPU的批量大小为16K个token。通过两个微批次重叠计算与全连接通信，确保负载平衡。
解码（Decoding）：基于EP128、TP1，提示长度为4K，每个GPU的批量大小为128个请求。解码阶段同样使用两个微批次进行计算和全连接通信，但与预填充不同的是，解码阶段的全连接通信不会占用GPU SMs（流式多处理器）。在RDMA（远程直接内存访问）消息发出后，所有GPU SMs均被释放，系统计算完成后将等待全连接通信结束。