英特尔至强6独享MRDIMM，内存带宽飙升，加速推理达2.4倍！

AIGC动态7个月前发布新智元

518 0 0

在解决了「能或不能」的问题之后，推理成本是大语言模型落地最后最关键的挑战

原标题：英特尔至强6独享MRDIMM，内存带宽飙升，加速推理达2.4倍！
文章来源：新智元
内容字数：7605字

英特尔至强6性能核处理器：内存带宽升级与大模型推理

本文总结了新智元报道中关于英特尔至强6性能核处理器（特别是6980P和6972P型号）的关键信息，重点关注其内存带宽提升对大语言模型推理性能的影响。

架构分析与内核数量
文章推测至强6性能核处理器的芯片布局更接近5×10，而非之前的预测5×9。每个芯片约有44个内核，通过屏蔽少量内核构成不同的型号，例如128核的6980P。值得注意的是，内存控制器区域比预期大得多，占据6个网格，这引发了关于其额外功能（例如MRDIMM支持）的猜测。
NUMA与集群模式
至强6性能核处理器支持不同的NUMA（非统一内存访问）模式，包括SNC3 Mode（每个计算单元芯片作为一个SNC）和HEX Mode（访问所有内存）。SNC3 Mode是默认模式，适合虚拟化、容器化应用和并行计算；HEX Mode则更适合大型数据库、部分科学计算和CXL内存扩展场景。不同模式的内存访问时延差异较大，与内核和内存控制器之间的距离相关。
MRDIMM：内存带宽的显著提升
至强6性能核处理器独占性地支持MRDIMM（多路复用数据缓冲器），大幅提升内存带宽。MRDIMM通过多路复用数据缓冲器（MDB）和改进的寄存时钟驱动器（MRCD）实现带宽翻倍。更高的内存容量（例如使用256GB MRDIMM）也进一步增强了其优势，尤其利好AI训练和大型数据库应用。虽然轻量级应用可能无法充分利用MRDIMM的带宽提升，但对于计算密集型应用（如加密、科学计算、AI训练和推理）则有显著益处。
内存带宽与大模型推理
文章指出，大语言模型推理对内存带宽的需求非常高。在测试中，大语言模型推理性能提升超过30%，而传统推理任务的提升较小。以Llama3 8B模型为例，至强6972P（96核）的推理性能是至强8592+（64核）的2.4倍以上，这主要归功于内存带宽的显著提升（约为2.4倍），而非单纯的内核数量增加。在算力非瓶颈的情况下，内存容量和带宽决定了模型规模上限和token输出上限。
结语：推理成本的挑战与解决方案
至强6性能核处理器结合MRDIMM，在内存带宽和容量方面取得了显著进步，这对于大语言模型推理等应用至关重要。在解决了“能或不能”的问题后，推理成本成为大语言模型落地的关键挑战。至强6性能核处理器配MRDIMM的组合，为降低推理成本提供了新的思路，并为科学计算、大型数据库等传统重负荷领域带来了显著益处。CXL内存扩展技术更能进一步提升性能。