HPC-Ops

AI工具26分钟前更新 AI工具集
0 0 0

HPC-Ops – 腾讯混元开源的工业级高性能大模型推理算子库

HPC-Ops:腾讯混元AI Infra团队打造的工业级高性能大模型推理加速引擎

在飞速发展的大模型时代,推理效率的提升已成为制约其大规模应用的关键瓶颈。腾讯混元AI Infra团队洞察到这一需求,倾力打造并开源了HPC-Ops——一款专为工业级大模型推理设计的、性能卓越的算子库。它犹如一位技艺精湛的炼金术士,将Attention、MoE(混合专家模型)、GEMM(通用矩阵乘法)、采样以及通信等核心模块进行了深度重塑与优化,并原生支持BF16/FP8以及混合精度计算,为大模型的推理插上了腾飞的翅膀。

HPC-Ops:不止是算子库

HPC-Ops并非简单的算子集合,而是腾讯混元AI Infra团队在海量生产级推理服务中打磨出的工业级利器。它针对NVIDIA H20等GPU架构进行了深度定制优化,通过创新的动态调度与算子融合技术,实现了端到端QPM(Queries Per Minute)的30%以上飞跃。在多项关键性能指标上,HPC-Ops已然超越了vLLM、FlashInfer、SGLang等业界主流基线,其强大的实力已经成功支撑了腾讯混元大规模的生产级推理服务。

HPC-Ops的核心能力揭秘

  • 智能动态Attention调度:面对线上推理场景中长短请求混杂的复杂负载,HPC-Ops采用了运行时Tile级别的精细化动态任务调度策略。这种策略能够实现CTA(CUDA Thread Block)级别的负载均衡,尤其在处理长文本场景时,能够带来高达2.95倍的性能提升。
  • Router GEMM的精度与效率双赢:在MoE模型中,Router GEMM扮演着至关重要的角色。HPC-Ops巧妙地利用双BF16 GEMM组合,在模拟FP32精度计算的同时,大幅提升了计算吞吐量。通过离线权重拆分与推理阶段的Kernel融合,它在兼顾数值敏感场景的高精度要求的同时,充分释放了Tensor Core的强大算力。
  • FusedMoE:无气泡流水线重构:HPC-Ops将MoE模型中繁杂的路由索引、Gate-Up GEMM、激活量化、Down GEMM以及Top-K加权聚合这五个阶段,重构为一条无缝衔接的流水线。这极大地消除了显存搬运和内核启动的开销,实现了高效的计算流程。
  • 通信与计算的深度融合——Fused AllReduce+Norm:针对张量并行带来的通信瓶颈,HPC-Ops深度融合了跨GPU通信、残差相加以及RMSNorm归一化。它基于NVLink的多播和P2P技术,实现了通信与计算的一体化,有效缓解了张量并行带来的性能压力。
  • Sampler大算子融合:补齐推理末端短板:推理过程的后处理阶段常常成为性能短板。HPC-Ops将重复惩罚、温度缩放、Top-K、Top-P、Softmax以及随机采样等十余个Kernel,巧妙地融合为仅两个CUDA Kernel。这一举措极大地提升了推理末端的处理效率。
  • GroupGEMM FP8:为MoE模型量身定制:HPC-Ops原生支持专家并行与分组专家矩阵乘,并对per-tensor与block-wise FP8量化进行了深度优化。这为MoE模型的高效推理提供了强大的支持。

HPC-Ops背后的技术原理

  • Attention动态调度的精髓:面对传统静态Split-KV在长短请求混排负载下的局限性,HPC-Ops将所有请求统一拆分为Tile粒度。通过全局Tile总量均衡分配各CTA的任务规模,并辅以贪心装桶算法实现极致均分。每次推理前生成的专属任务映射表,确保了各层Attention Kernel精准领取任务,最终由Combine Kernel合并结果,实现了全流程的负载均衡。
  • Router GEMM:双BF16如何模拟FP32:针对MoE路由等对精度要求极高的场景,HPC-Ops在离线阶段将FP32权重拆分为高位BF16和低位残差BF16(缩放因子1/256)。在推理阶段,通过两次BF16 Tensor Core GEMM计算并进行线性组合,激活值全程保持BF16。双路计算被融合至单一Kernel,输入仅搬运一次,双寄存器累加器缓存中间结果,Epilogue阶段一次FMA修正后写出,全程无需HBM往返,效率显著。
  • FusedMoE流水线重构的奥秘:在路由阶段,HPC-Ops利用共享内存分块统计,为每个专家预留连续显存输出区间。Gate-Up GEMM直接通过路由索引读取原始输入,省去了Gather搬运。取消Warp Specialization,由同一Warp Group完成数据搬运与计算,将访存延迟掩盖逻辑从CTA内软件流水线升级为跨CTA硬件调度。PDL技术贯穿全链路,确保了无气泡的执行。
  • Fused AllReduce+Norm:通信计算的无缝融合:基于CUDA multimem与P2P技术,HPC-Ops将RMSNorm(AllReduce(x) + residual, weight)封装为NVLink原生一体化操作。高吞吐版本借助NVSwitch多播机制适配Prefill场景,低延迟版本则基于Lamport P2P机制通过PDL实现双Kernel重叠执行,完美适配Decode场景。

如何轻松上手HPC-Ops

  • 硬件准备:确保拥有一台配备NVIDIA SM90架构GPU(例如H20)的服务器,并安装Python 3.8+、CUDA 12.8+以及C++17编译器。
  • 代码获取:从GitHub克隆HPC-Ops的源代码仓库至本地。
  • 编译打包:进入项目目录,执行编译打包命令,生成可安装的wheel文件。
  • 安装部署:使用pip命令安装生成的wheel文件,完成环境部署。
  • 模块导入:在Python脚本中,轻松导入hpc模块。
  • 数据准备:根据您选择的目标算子类型,准备符合精度要求的输入张量与配置参数。
  • 算子调用:通过Python API(如Attention、FusedMoE、Sampler等)调用相应算子,即可执行高性能推理。
  • 验证测试:参考tests目录下的测试脚本,验证算子的正确性与具体用法。
  • 框架集成:通过提供的Python API,将HPC-Ops无缝集成到vLLM、SGLang等主流推理框架中。
  • 性能基准测试:使用benchmark目录下的脚本,在目标硬件上进行性能复现与对比测试。

HPC-Ops的独特优势

  • 端到端全链路优化:HPC-Ops并非仅聚焦于单点算子的优化,而是贯穿Attention、Router、MoE、通信融合、Sampler的推理全链路,实现了端到端QPM的30%+提升。
  • 动态负载均衡,根治长尾效应:通过运行时Tile级别动态调度与贪心装桶算法,在长短请求混排场景下,长文本加速最高达2.95倍,端到端QPM提升17%。
  • 高精度Router GEMM,性能与精度的完美平衡:独创双BF16组合模拟FP32精度,误差仅为TF32的1/36,性能较cuBLAS FP32最高提速3.22倍,满足数值敏感场景需求的同时,释放算力。
  • MoE无气泡流水线,效率大幅提升:FusedMoE将MoE的五个阶段重构为单一执行链路,消除了显存搬运和内核启动开销,性能较vLLM/SGLang提升1.2x~1.6x。
  • 通信计算深度融合,打破瓶颈:Fused AllReduce+Norm封装为NVLink原生一体化操作,打通张量并行瓶颈,较NCCL/FlashInfer最高提速1.68倍。

HPC-Ops的GitHub项目地址

  • GitHub仓库:https://github.com/Tencent/hpc-ops

HPC-Ops与同类竞品深度对比

维度HPC-OpsFlashInfer
项目性质腾讯混元开源并长期维护的工业级算子库,经大规模生产验证社区驱动的开源高性能算子库,被 vLLM、SGLang 等框架广泛集成
Attention 动态调度支持运行时 Tile 级动态任务分配与贪心装桶,长短请求混排场景下长文本最高加速 2.95x,混合 batch 加速 1.59x~1.76x主要采用静态 split-k 调度,在均匀长度负载表现稳定,但长短混排时易出现 CTA 级长尾延迟
Attention 标准性能BF16 Prefill 最高 1.33x、Decode 2.22x;FP8 Decode 2.0x(相对 FlashInfer 基线)作为社区主流基线,性能表现优异,但在动态负载与稀疏场景下存在优化空间
Sparse AttentionFP8 块稀疏 Prefill,支持预计算块掩码跳过无关 KV Tile,相对 FlashInfer 等基线最高 3.16x支持块稀疏模式,但 HPC-Ops 在 FP8 精度下的稀疏调度与 Tile 量化有更精细的实现
MoE 融合FusedMoE 将路由索引→Gate-Up→量化→Down→Top-K 聚合重构为无气泡流水线,性能领先 1.2x~1.6x提供基础 MoE 支持,无全模块流水线融合,存在多阶段显存搬运与 Kernel 启动开销
Router GEMM独创双 BF16 模拟 FP32 精度,误差仅为 TF32 的 1/36,性能 3.22x,适合数值敏感的路由模块无专用高精度 Router GEMM 优化,需依赖 cuBLAS FP32 或接受 BF16/TF32 精度折损
通信计算融合Fused AllReduce+Residual+RMSNorm 封装为 NVLink 原生一体化操作,相对 FlashInfer 最高 1.68x~1.76x提供基础通信算子,但无 AllReduce、残差与归一化的原生融合实现

HPC-Ops的应用场景

  • 高吞吐在线推理服务:其动态Attention调度和Sampler融合技术,显著降低了长尾延迟,是处理长短请求混排真实业务负载的理想选择。
  • MoE大模型推理:针对DeepSeek-V3、Qwen3-235B等MoE模型,HPC-Ops的FusedMoE优化显著提升了TP/EP并行场景下的推理效率。
  • 张量并行分布式推理:Fused AllReduce+Norm技术有效打通了多卡通信瓶颈,特别适合单节点多GPU的大模型部署场景。
  • 精度敏感推理:Router GEMM以BF16算力实现FP32精度,满足MoE路由、稀疏Attention等对数值精度有严格要求的模块。
阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...