ZCube

AI工具17分钟前更新 AI工具集
0 0 0

ZCube – 智谱AI联合清华推出的下一代大模型推理网络架构

ZCube:重塑大模型推理网络,智启下一代算力架构

在人工智能飞速发展的浪潮中,大模型推理网络的性能瓶颈日益凸显。针对这一挑战,智谱AI联合驭驯网络与清华大学,重磅推出了革新性的下一代大模型推理网络架构——ZCube。该架构的诞生,旨在精准化解在模型并行(PD)分离部署场景下普遍存在的结构性网络拥塞难题,为大模型的顺畅运行注入强劲动力。

ZCube的独特之处

ZCube的核心创新在于颠覆了传统网络设计的固有模式。它大胆地取消了Spine层交换机,转而构建一个全网扁平化的拓扑结构。通过引入单轨与多轨混合接入机制,ZCube实现了全局流量的解耦与离散化路由,从而从根本上解决了传统架构在处理大规模模型推理时易出现的拥塞问题。在GLM-5.1 coding生产环境的严苛实测中,ZCube在保持GPU及软件栈不变的前提下,显著降低了网络硬件成本,同时大幅提升了GPU的推理效率和响应速度。具体而言,其交换机与光模块的资本支出降低了33%,GPU平均推理吞吐量提升了15%,而首Token时延(TTFT)的P99分位数更是降低了惊人的40.6%。

ZCube的核心功能解析

  • 扁平化网络,化繁为简:ZCube打破了传统Clos架构的层级堆叠逻辑,摒弃了Spine层,采用完全二部图的互联方式。这使得网络直径从传统的3跳压缩至2跳,极大地缩短了数据传输路径,提升了网络效率。

  • 精妙的接入机制:该架构巧妙地融合了单轨与多轨接入。一组Leaf交换机以单轨方式连接连续编号的GPU,另一组则以多轨方式连接同等编号的GPU。这种设计能够有效应对PD分离部署带来的动态不对称流量,使其在传输过程中实现天然的离散化。

  • 全局最优路径规划:ZCube的路由策略能够确保任意两个GPU节点之间仅存在一条最优路径,避免了多路径选择可能引发的流量冲突。无论是训练还是推理任务,都能在全网范围内实现理想的负载均衡。

  • 根治结构性拥塞:通过架构层面的创新,ZCube能够将KV Cache跨节点传输的流量进行全局解耦与离散化处理,从源头上消除了局部热点链路和因PFC(Priority Flow Control)反压而产生的拥塞。

ZCube的技术基石

  • 完全二部图拓扑的精妙设计:Leaf交换机被划分为奇偶两组,组内交换机之间不直接连接。然而,组间的每台交换机都与其他组的所有交换机实现全连接,构成了一个扁平化的网络结构。

  • 双端口的差异化连接策略:每块GPU网卡的两个端口分别采用单轨(连接奇数交换机)和多轨(连接偶数交换机)的方式进行接入。通过精确的数学映射公式,实现了通信路径的确定性路由。

  • 确定性最短路径路由算法:基于GPU编号与交换机编号的模运算及向上取整映射,ZCube能够确保任意两个GPU之间都存在一条且仅有一条经过两台Leaf交换机的最优路径。

  • 适配动态流量模式:ZCube的设计能够完美契合PD分离部署产生的源-目的不对称、动态变化的KV Cache传输特性。其拓扑结构本身就能够实现流量的天然分散,无需依赖复杂的传输层机制。

ZCube的部署与验证

  • 架构规划先行:首先,将Leaf交换机按照奇偶序号划分为两组,构建完全二部图的互联拓扑,并彻底取消传统的Spine层。

  • 精细化端口配置:为每张GPU网卡的两个端口分别配置单轨与多轨的混合接入策略,确保其连接至正确的奇偶交换机。

  • 自动化部署流程:借助ZCube控制器、机房布局设计工具以及连线正确性检测程序,可以实现配置的自动生成与批量下发,大大简化部署流程。

  • 生产环境的严苛验证:在推理服务正式上线前,需对带宽、时延及PFC进行全面监控。只有在确认不存在结构性拥塞热点后,方可进行正式的流量切换。

ZCube的突出优势

  • 成本效益显著:在同等规模下,ZCube相较于Clos/ROFT架构,可节省约33%的交换机和光模块投入。对于万卡级别的智算集群而言,网络硬件投资可节省高达2.1亿至6.4亿元。

  • 推理性能飞跃:在GLM-5.1 coding生产实测中,ZCube实现了GPU平均推理吞吐量提升超过15%,TTFT的P99分位数更是下降了40.6%,显著提升了推理效率。

  • 强大的扩展能力:基于现有的51.2T交换机,ZCube能够构建支持16384块400Gbps网卡的扁平化网络。通过多平面划分,其扩展能力可轻松支持数万至数十万GPU的互联。

  • 零侵入式升级体验:ZCube的最大亮点在于其“零侵入性”。用户无需对GPU硬件、软件栈或应用逻辑进行任何改动,仅通过网络架构层的优化,即可充分释放现有硬件的潜能。

ZCube的项目地址

ZCube与同类竞品的深度对比

对比维度ZCubeROFT(Rail-Optimized Fat-Tree)
网络架构扁平化二部图,无Spine层两层Fat-Tree,保留Spine层
网络直径2跳3跳
负载均衡全局理想均衡,单路径无冲突静态Rail映射,推理场景易失衡
拥塞控制从架构层消除结构性拥塞易产生局部热点和PFC反压
硬件成本降低33%交换机和光模块标准Clos成本
推理吞吐提升15%基准
TTFT P99降低40.6%基准
扩展规模数万至数十万GPU受Spine层容量限制

ZCube的应用前景展望

  • 超大规模LLM推理集群的理想选择:ZCube特别适用于PD分离部署的千卡至万卡级推理集群,能够有效解决KV Cache跨节点传输带来的网络瓶颈。

  • 长上下文推理的加速器:该架构能够显著缓解长序列场景下,网络带宽对首Token时延和整体吞吐量的制约。

  • 高密度智算中心的坚实基座:为训练与推理混合负载提供高均衡、低时延、高带宽利用率的网络基础。

  • MaaS云服务平台的成本优化者:ZCube能够降低推理服务的综合成本,显著提升多租户高并发场景下的尾时延稳定性,为云服务平台注入新的活力。

阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...