在解决了「能或不能」的问题之后,推理成本是大语言模型落地最后最关键的挑战
原标题:英特尔至强6独享MRDIMM,内存带宽飙升,加速推理达2.4倍!
文章来源:新智元
内容字数:7605字
英特尔至强6性能核处理器:内存带宽升级与大模型推理
本文总结了新智元报道中关于英特尔至强6性能核处理器(特别是6980P和6972P型号)的关键信息,重点关注其内存带宽提升对大语言模型推理性能的影响。
架构分析与内核数量
文章推测至强6性能核处理器的芯片布局更接近5×10,而非之前的预测5×9。每个芯片约有44个内核,通过屏蔽少量内核构成不同的型号,例如128核的6980P。值得注意的是,内存控制器区域比预期大得多,占据6个网格,这引发了关于其额外功能(例如MRDIMM支持)的猜测。
NUMA与集群模式
至强6性能核处理器支持不同的NUMA(非统一内存访问)模式,包括SNC3 Mode(每个计算单元芯片作为一个SNC)和HEX Mode(访问所有内存)。SNC3 Mode是默认模式,适合虚拟化、容器化应用和并行计算;HEX Mode则更适合大型数据库、部分科学计算和CXL内存扩展场景。不同模式的内存访问时延差异较大,与内核和内存控制器之间的距离相关。
MRDIMM:内存带宽的显著提升
至强6性能核处理器独占性地支持MRDIMM(多路复用数据缓冲器),大幅提升内存带宽。MRDIMM通过多路复用数据缓冲器(MDB)和改进的寄存时钟驱动器(MRCD)实现带宽翻倍。更高的内存容量(例如使用256GB MRDIMM)也进一步增强了其优势,尤其利好AI训练和大型数据库应用。虽然轻量级应用可能无法充分利用MRDIMM的带宽提升,但对于计算密集型应用(如加密、科学计算、AI训练和推理)则有显著益处。
内存带宽与大模型推理
文章指出,大语言模型推理对内存带宽的需求非常高。在测试中,大语言模型推理性能提升超过30%,而传统推理任务的提升较小。以Llama3 8B模型为例,至强6972P(96核)的推理性能是至强8592+(64核)的2.4倍以上,这主要归功于内存带宽的显著提升(约为2.4倍),而非单纯的内核数量增加。在算力非瓶颈的情况下,内存容量和带宽决定了模型规模上限和token输出上限。
结语:推理成本的挑战与解决方案
至强6性能核处理器结合MRDIMM,在内存带宽和容量方面取得了显著进步,这对于大语言模型推理等应用至关重要。在解决了“能或不能”的问题后,推理成本成为大语言模型落地的关键挑战。至强6性能核处理器配MRDIMM的组合,为降低推理成本提供了新的思路,并为科学计算、大型数据库等传统重负荷领域带来了显著益处。CXL内存扩展技术更能进一步提升性能。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。