ZCube

ZCube – 智谱AI联合清华推出的下一代大模型推理网络架构

ZCube：重塑大模型推理网络，智启下一代算力架构

在人工智能飞速发展的浪潮中，大模型推理网络的性能瓶颈日益凸显。针对这一挑战，智谱AI联合驭驯网络与清华大学，重磅推出了革新性的下一代大模型推理网络架构——ZCube。该架构的诞生，旨在精准化解在模型并行（PD）分离部署场景下普遍存在的结构性网络拥塞难题，为大模型的顺畅运行注入强劲动力。

ZCube的独特之处

ZCube的核心创新在于颠覆了传统网络设计的固有模式。它大胆地取消了Spine层交换机，转而构建一个全网扁平化的拓扑结构。通过引入单轨与多轨混合接入机制，ZCube实现了全局流量的解耦与离散化路由，从而从根本上解决了传统架构在处理大规模模型推理时易出现的拥塞问题。在GLM-5.1 coding生产环境的严苛实测中，ZCube在保持GPU及软件栈不变的前提下，显著降低了网络硬件成本，同时大幅提升了GPU的推理效率和响应速度。具体而言，其交换机与光模块的资本支出降低了33%，GPU平均推理吞吐量提升了15%，而首Token时延（TTFT）的P99分位数更是降低了惊人的40.6%。

ZCube的核心功能解析

扁平化网络，化繁为简：ZCube打破了传统Clos架构的层级堆叠逻辑，摒弃了Spine层，采用完全二部图的互联方式。这使得网络直径从传统的3跳压缩至2跳，极大地缩短了数据传输路径，提升了网络效率。
精妙的接入机制：该架构巧妙地融合了单轨与多轨接入。一组Leaf交换机以单轨方式连接连续编号的GPU，另一组则以多轨方式连接同等编号的GPU。这种设计能够有效应对PD分离部署带来的动态不对称流量，使其在传输过程中实现天然的离散化。
全局最优路径规划：ZCube的路由策略能够确保任意两个GPU节点之间仅存在一条最优路径，避免了多路径选择可能引发的流量冲突。无论是训练还是推理任务，都能在全网范围内实现理想的负载均衡。
根治结构性拥塞：通过架构层面的创新，ZCube能够将KV Cache跨节点传输的流量进行全局解耦与离散化处理，从源头上消除了局部热点链路和因PFC（Priority Flow Control）反压而产生的拥塞。

ZCube的技术基石

完全二部图拓扑的精妙设计：Leaf交换机被划分为奇偶两组，组内交换机之间不直接连接。然而，组间的每台交换机都与其他组的所有交换机实现全连接，构成了一个扁平化的网络结构。
双端口的差异化连接策略：每块GPU网卡的两个端口分别采用单轨（连接奇数交换机）和多轨（连接偶数交换机）的方式进行接入。通过精确的数学映射公式，实现了通信路径的确定性路由。
确定性最短路径路由算法：基于GPU编号与交换机编号的模运算及向上取整映射，ZCube能够确保任意两个GPU之间都存在一条且仅有一条经过两台Leaf交换机的最优路径。
适配动态流量模式：ZCube的设计能够完美契合PD分离部署产生的源-目的不对称、动态变化的KV Cache传输特性。其拓扑结构本身就能够实现流量的天然分散，无需依赖复杂的传输层机制。

ZCube的部署与验证

架构规划先行：首先，将Leaf交换机按照奇偶序号划分为两组，构建完全二部图的互联拓扑，并彻底取消传统的Spine层。
精细化端口配置：为每张GPU网卡的两个端口分别配置单轨与多轨的混合接入策略，确保其连接至正确的奇偶交换机。
自动化部署流程：借助ZCube控制器、机房布局设计工具以及连线正确性检测程序，可以实现配置的自动生成与批量下发，大大简化部署流程。
生产环境的严苛验证：在推理服务正式上线前，需对带宽、时延及PFC进行全面监控。只有在确认不存在结构性拥塞热点后，方可进行正式的流量切换。

ZCube的突出优势

成本效益显著：在同等规模下，ZCube相较于Clos/ROFT架构，可节省约33%的交换机和光模块投入。对于万卡级别的智算集群而言，网络硬件投资可节省高达2.1亿至6.4亿元。
推理性能飞跃：在GLM-5.1 coding生产实测中，ZCube实现了GPU平均推理吞吐量提升超过15%，TTFT的P99分位数更是下降了40.6%，显著提升了推理效率。
强大的扩展能力：基于现有的51.2T交换机，ZCube能够构建支持16384块400Gbps网卡的扁平化网络。通过多平面划分，其扩展能力可轻松支持数万至数十万GPU的互联。
零侵入式升级体验：ZCube的最大亮点在于其“零侵入性”。用户无需对GPU硬件、软件栈或应用逻辑进行任何改动，仅通过网络架构层的优化，即可充分释放现有硬件的潜能。

ZCube的项目地址

项目官网：https://z.ai/blog/zcube

ZCube与同类竞品的深度对比

对比维度	ZCube	ROFT（Rail-Optimized Fat-Tree）
网络架构	扁平化二部图，无Spine层	两层Fat-Tree，保留Spine层
网络直径	2跳	3跳
负载均衡	全局理想均衡，单路径无冲突	静态Rail映射，推理场景易失衡
拥塞控制	从架构层消除结构性拥塞	易产生局部热点和PFC反压
硬件成本	降低33%交换机和光模块	标准Clos成本
推理吞吐	提升15%	基准
TTFT P99	降低40.6%	基准
扩展规模	数万至数十万GPU	受Spine层容量限制