原标题:300行代码颠覆矩阵计算!DeepSeek开源DeepGEMM:FP8精度+MoE优化,LLM推理成本直降
文章来源:AI范儿
内容字数:2230字
DeepSeek开源周第三天:高性能FP8通用矩阵乘法库DeepGEMM发布
DeepSeek开源周第三天重磅推出DeepGEMM,这是一个专为FP8通用矩阵乘法(GEMM)设计的高性能计算库,旨在提升人工智能在资源受限环境下的计算能力。作为一家致力于开发高效、低成本大语言模型(LLM)的公司,DeepSeek通过DeepGEMM进一步强化了其技术实力。
1. DeepGEMM的核心优势与创新
DeepGEMM的核心优势在于实现了DeepSeek-V3中提出的细粒度缩放功能,并特别优化了混合专家系统(MoE)架构中的分组矩阵乘法,这是DeepSeek-V3和DeepSeek-R1等先进模型的关键计算需求。它采用创新的安装方式,无需复杂的预编译过程,通过轻量级即时编译(JIT)模块在运行时编译所有内核,简化了部署和使用流程。 DeepGEMM用CUDA编写,核心内核函数仅约300行代码,易于理解和学习。
2. 精度与性能的平衡
当前版本的DeepGEMM针对NVIDIA Hopper张量核心进行了优化。为了解决FP8张量核心在累加计算时可能面临的精度问题,它采用了CUDA核心的两级累加技术,在保证速度的同时提升了计算精度。虽然借鉴了CUTLASS和CuTe的一些概念,但DeepGEMM避免了过度依赖,追求简洁的设计。
3. 令人印象深刻的性能表现
尽管设计轻量,DeepGEMM在各种矩阵形状下的性能表现都非常出色。在H800 GPU上使用NVCC 12.8的测试结果显示,在DeepSeek-V3/R1推理过程中可能用到的大多数矩阵形状(包括预填充和解码阶段,不包含张量并行)上,其性能能够媲美甚至超越那些由专家精心调优的库。
4. DeepGEMM的意义
DeepGEMM的推出对DeepSeek和整个AI社区都具有重要意义:
- 提升计算效率:优化底层矩阵运算,显著减少训练和推理时的计算资源需求,尤其适合硬件受限环境。
- 降低运行成本:支持DeepSeek以低成本构建高性能模型的战略,减少对高端硬件的依赖。
- MoE架构优化:针对MoE模型的特点进行了专门优化,提升了推理速度和能效。
- 开源赋能:作为DeepSeek开放策略的一部分,为开发者社区提供了一个强大的工具。
5. 总结
DeepGEMM的发布是DeepSeek开源周的又一亮点,它是一个高效、轻量级且易于使用的FP8 GEMM库,为构建高效、低成本的AI模型提供了强有力的支持,并为AI社区贡献了一个宝贵的开源资源。其在性能和精度上的平衡,以及对MoE架构的优化,使其成为深度学习领域的一项重要进展。
联系作者
文章来源:AI范儿
作者微信:
作者简介:专注于探索 AIGC,发掘人工智能的乐趣。