HPC-Ops

HPC-Ops – 腾讯混元开源的工业级高性能大模型推理算子库

HPC-Ops：腾讯混元AI Infra团队打造的工业级高性能大模型推理加速引擎

在飞速发展的大模型时代，推理效率的提升已成为制约其大规模应用的关键瓶颈。腾讯混元AI Infra团队洞察到这一需求，倾力打造并开源了HPC-Ops——一款专为工业级大模型推理设计的、性能卓越的算子库。它犹如一位技艺精湛的炼金术士，将Attention、MoE（混合专家模型）、GEMM（通用矩阵乘法）、采样以及通信等核心模块进行了深度重塑与优化，并原生支持BF16/FP8以及混合精度计算，为大模型的推理插上了腾飞的翅膀。

HPC-Ops：不止是算子库

HPC-Ops并非简单的算子集合，而是腾讯混元AI Infra团队在海量生产级推理服务中打磨出的工业级利器。它针对NVIDIA H20等GPU架构进行了深度定制优化，通过创新的动态调度与算子融合技术，实现了端到端QPM（Queries Per Minute）的30%以上飞跃。在多项关键性能指标上，HPC-Ops已然超越了vLLM、FlashInfer、SGLang等业界主流基线，其强大的实力已经成功支撑了腾讯混元大规模的生产级推理服务。

HPC-Ops的核心能力揭秘

智能动态Attention调度：面对线上推理场景中长短请求混杂的复杂负载，HPC-Ops采用了运行时Tile级别的精细化动态任务调度策略。这种策略能够实现CTA（CUDA Thread Block）级别的负载均衡，尤其在处理长文本场景时，能够带来高达2.95倍的性能提升。
Router GEMM的精度与效率双赢：在MoE模型中，Router GEMM扮演着至关重要的角色。HPC-Ops巧妙地利用双BF16 GEMM组合，在模拟FP32精度计算的同时，大幅提升了计算吞吐量。通过离线权重拆分与推理阶段的Kernel融合，它在兼顾数值敏感场景的高精度要求的同时，充分释放了Tensor Core的强大算力。
FusedMoE：无气泡流水线重构：HPC-Ops将MoE模型中繁杂的路由索引、Gate-Up GEMM、激活量化、Down GEMM以及Top-K加权聚合这五个阶段，重构为一条无缝衔接的流水线。这极大地消除了显存搬运和内核启动的开销，实现了高效的计算流程。
通信与计算的深度融合——Fused AllReduce+Norm：针对张量并行带来的通信瓶颈，HPC-Ops深度融合了跨GPU通信、残差相加以及RMSNorm归一化。它基于NVLink的多播和P2P技术，实现了通信与计算的一体化，有效缓解了张量并行带来的性能压力。
Sampler大算子融合：补齐推理末端短板：推理过程的后处理阶段常常成为性能短板。HPC-Ops将重复惩罚、温度缩放、Top-K、Top-P、Softmax以及随机采样等十余个Kernel，巧妙地融合为仅两个CUDA Kernel。这一举措极大地提升了推理末端的处理效率。
GroupGEMM FP8：为MoE模型量身定制：HPC-Ops原生支持专家并行与分组专家矩阵乘，并对per-tensor与block-wise FP8量化进行了深度优化。这为MoE模型的高效推理提供了强大的支持。

HPC-Ops背后的技术原理

Attention动态调度的精髓：面对传统静态Split-KV在长短请求混排负载下的局限性，HPC-Ops将所有请求统一拆分为Tile粒度。通过全局Tile总量均衡分配各CTA的任务规模，并辅以贪心装桶算法实现极致均分。每次推理前生成的专属任务映射表，确保了各层Attention Kernel精准领取任务，最终由Combine Kernel合并结果，实现了全流程的负载均衡。
Router GEMM：双BF16如何模拟FP32：针对MoE路由等对精度要求极高的场景，HPC-Ops在离线阶段将FP32权重拆分为高位BF16和低位残差BF16（缩放因子1/256）。在推理阶段，通过两次BF16 Tensor Core GEMM计算并进行线性组合，激活值全程保持BF16。双路计算被融合至单一Kernel，输入仅搬运一次，双寄存器累加器缓存中间结果，Epilogue阶段一次FMA修正后写出，全程无需HBM往返，效率显著。
FusedMoE流水线重构的奥秘：在路由阶段，HPC-Ops利用共享内存分块统计，为每个专家预留连续显存输出区间。Gate-Up GEMM直接通过路由索引读取原始输入，省去了Gather搬运。取消Warp Specialization，由同一Warp Group完成数据搬运与计算，将访存延迟掩盖逻辑从CTA内软件流水线升级为跨CTA硬件调度。PDL技术贯穿全链路，确保了无气泡的执行。
Fused AllReduce+Norm：通信计算的无缝融合：基于CUDA multimem与P2P技术，HPC-Ops将RMSNorm(AllReduce(x) + residual， weight)封装为NVLink原生一体化操作。高吞吐版本借助NVSwitch多播机制适配Prefill场景，低延迟版本则基于Lamport P2P机制通过PDL实现双Kernel重叠执行，完美适配Decode场景。

如何轻松上手HPC-Ops

硬件准备：确保拥有一台配备NVIDIA SM90架构GPU（例如H20）的服务器，并安装Python 3.8+、CUDA 12.8+以及C++17编译器。
代码获取：从GitHub克隆HPC-Ops的源代码仓库至本地。
编译打包：进入项目目录，执行编译打包命令，生成可安装的wheel文件。
安装部署：使用pip命令安装生成的wheel文件，完成环境部署。
模块导入：在Python脚本中，轻松导入hpc模块。
数据准备：根据您选择的目标算子类型，准备符合精度要求的输入张量与配置参数。
算子调用：通过Python API（如Attention、FusedMoE、Sampler等）调用相应算子，即可执行高性能推理。
验证测试：参考tests目录下的测试脚本，验证算子的正确性与具体用法。
框架集成：通过提供的Python API，将HPC-Ops无缝集成到vLLM、SGLang等主流推理框架中。
性能基准测试：使用benchmark目录下的脚本，在目标硬件上进行性能复现与对比测试。

HPC-Ops的独特优势

端到端全链路优化：HPC-Ops并非仅聚焦于单点算子的优化，而是贯穿Attention、Router、MoE、通信融合、Sampler的推理全链路，实现了端到端QPM的30%+提升。
动态负载均衡，根治长尾效应：通过运行时Tile级别动态调度与贪心装桶算法，在长短请求混排场景下，长文本加速最高达2.95倍，端到端QPM提升17%。
高精度Router GEMM，性能与精度的完美平衡：独创双BF16组合模拟FP32精度，误差仅为TF32的1/36，性能较cuBLAS FP32最高提速3.22倍，满足数值敏感场景需求的同时，释放算力。
MoE无气泡流水线，效率大幅提升：FusedMoE将MoE的五个阶段重构为单一执行链路，消除了显存搬运和内核启动开销，性能较vLLM/SGLang提升1.2x~1.6x。
通信计算深度融合，打破瓶颈：Fused AllReduce+Norm封装为NVLink原生一体化操作，打通张量并行瓶颈，较NCCL/FlashInfer最高提速1.68倍。

HPC-Ops的GitHub项目地址

GitHub仓库：https://github.com/Tencent/hpc-ops

HPC-Ops与同类竞品深度对比

维度	HPC-Ops	FlashInfer
项目性质	腾讯混元开源并长期维护的工业级算子库，经大规模生产验证	社区驱动的开源高性能算子库，被 vLLM、SGLang 等框架广泛集成
Attention 动态调度	支持运行时 Tile 级动态任务分配与贪心装桶，长短请求混排场景下长文本最高加速 2.95x，混合 batch 加速 1.59x~1.76x	主要采用静态 split-k 调度，在均匀长度负载表现稳定，但长短混排时易出现 CTA 级长尾延迟
Attention 标准性能	BF16 Prefill 最高 1.33x、Decode 2.22x；FP8 Decode 2.0x（相对 FlashInfer 基线）	作为社区主流基线，性能表现优异，但在动态负载与稀疏场景下存在优化空间
Sparse Attention	FP8 块稀疏 Prefill，支持预计算块掩码跳过无关 KV Tile，相对 FlashInfer 等基线最高 3.16x	支持块稀疏模式，但 HPC-Ops 在 FP8 精度下的稀疏调度与 Tile 量化有更精细的实现
MoE 融合	FusedMoE 将路由索引→Gate-Up→量化→Down→Top-K 聚合重构为无气泡流水线，性能领先 1.2x~1.6x	提供基础 MoE 支持，无全模块流水线融合，存在多阶段显存搬运与 Kernel 启动开销
Router GEMM	独创双 BF16 模拟 FP32 精度，误差仅为 TF32 的 1/36，性能 3.22x，适合数值敏感的路由模块	无专用高精度 Router GEMM 优化，需依赖 cuBLAS FP32 或接受 BF16/TF32 精度折损
通信计算融合	Fused AllReduce+Residual+RMSNorm 封装为 NVLink 原生一体化操作，相对 FlashInfer 最高 1.68x~1.76x	提供基础通信算子，但无 AllReduce、残差与归一化的原生融合实现

HPC-Ops的应用场景

高吞吐在线推理服务：其动态Attention调度和Sampler融合技术，显著降低了长尾延迟，是处理长短请求混排真实业务负载的理想选择。
MoE大模型推理：针对DeepSeek-V3、Qwen3-235B等MoE模型，HPC-Ops的FusedMoE优化显著提升了TP/EP并行场景下的推理效率。
张量并行分布式推理：Fused AllReduce+Norm技术有效打通了多卡通信瓶颈，特别适合单节点多GPU的大模型部署场景。
精度敏感推理：Router GEMM以BF16算力实现FP32精度，满足MoE路由、稀疏Attention等对数值精度有严格要求的模块。

阅读原文