300行代码颠覆矩阵计算！DeepSeek开源DeepGEMM：FP8精度+MoE优化，LLM推理成本直降

AIGC动态1年前 (2025)发布 AI范儿

原标题：300行代码颠覆矩阵计算！DeepSeek开源DeepGEMM：FP8精度+MoE优化，LLM推理成本直降
文章来源：AI范儿
内容字数：2230字

DeepSeek开源周第三天：高性能FP8通用矩阵乘法库DeepGEMM发布

DeepSeek开源周第三天重磅推出DeepGEMM，这是一个专为FP8通用矩阵乘法（GEMM）设计的高性能计算库，旨在提升人工智能在资源受限环境下的计算能力。作为一家致力于开发高效、低成本大语言模型（LLM）的公司，DeepSeek通过DeepGEMM进一步强化了其技术实力。

1. DeepGEMM的核心优势与创新

DeepGEMM的核心优势在于实现了DeepSeek-V3中提出的细粒度缩放功能，并特别优化了混合专家系统（MoE）架构中的分组矩阵乘法，这是DeepSeek-V3和DeepSeek-R1等先进模型的关键计算需求。它采用创新的安装方式，无需复杂的预编译过程，通过轻量级即时编译（JIT）模块在运行时编译所有内核，简化了部署和使用流程。 DeepGEMM用CUDA编写，核心内核函数仅约300行代码，易于理解和学习。

2. 精度与性能的平衡

当前版本的DeepGEMM针对NVIDIA Hopper张量核心进行了优化。为了解决FP8张量核心在累加计算时可能面临的精度问题，它采用了CUDA核心的两级累加技术，在保证速度的同时提升了计算精度。虽然借鉴了CUTLASS和CuTe的一些概念，但DeepGEMM避免了过度依赖，追求简洁的设计。

3. 令人印象深刻的性能表现

尽管设计轻量，DeepGEMM在各种矩阵形状下的性能表现都非常出色。在H800 GPU上使用NVCC 12.8的测试结果显示，在DeepSeek-V3/R1推理过程中可能用到的大多数矩阵形状（包括预填充和解码阶段，不包含张量并行）上，其性能能够媲美甚至超越那些由专家精心调优的库。

4. DeepGEMM的意义

DeepGEMM的推出对DeepSeek和整个AI社区都具有重要意义：

提升计算效率：优化底层矩阵运算，显著减少训练和推理时的计算资源需求，尤其适合硬件受限环境。
降低运行成本：支持DeepSeek以低成本构建高性能模型的战略，减少对高端硬件的依赖。
MoE架构优化：针对MoE模型的特点进行了专门优化，提升了推理速度和能效。
开源赋能：作为DeepSeek开放策略的一部分，为开发者社区提供了一个强大的工具。

5. 总结

DeepGEMM的发布是DeepSeek开源周的又一亮点，它是一个高效、轻量级且易于使用的FP8 GEMM库，为构建高效、低成本的AI模型提供了强有力的支持，并为AI社区贡献了一个宝贵的开源资源。其在性能和精度上的平衡，以及对MoE架构的优化，使其成为深度学习领域的一项重要进展。

联系作者

文章来源：AI范儿
作者微信：
作者简介：专注于探索 AIGC，发掘人工智能的乐趣。

阅读原文

# AIGC动态 # DeepGEMMFP8 # LLM推理 # MoE # 模型量化 # 矩阵计算优化

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

300行代码颠覆矩阵计算！DeepSeek开源DeepGEMM：FP8精度+MoE优化，LLM推理成本直降

DeepSeek开源周第三天：高性能FP8通用矩阵乘法库DeepGEMM发布

1. DeepGEMM的核心优势与创新

2. 精度与性能的平衡

3. 令人印象深刻的性能表现

4. DeepGEMM的意义

5. 总结

联系作者

制糖工厂以旧换新，空降 LET’S VISION 现场！

准确率达97%，澳大利亚团队新成果基于深度学习凭颅骨CT鉴定性别，赶超人类法医

相关文章

暂无评论