300行代码颠覆矩阵计算!DeepSeek开源DeepGEMM:FP8精度+MoE优化,LLM推理成本直降

300行代码颠覆矩阵计算!DeepSeek开源DeepGEMM:FP8精度+MoE优化,LLM推理成本直降

原标题:300行代码颠覆矩阵计算!DeepSeek开源DeepGEMM:FP8精度+MoE优化,LLM推理成本直降
文章来源:AI范儿
内容字数:2230字

DeepSeek开源周第三天:高性能FP8通用矩阵乘法库DeepGEMM发布

DeepSeek开源周第三天重磅推出DeepGEMM,这是一个专为FP8通用矩阵乘法(GEMM)设计的高性能计算库,旨在提升人工智能在资源受限环境下的计算能力。作为一家致力于开发高效、低成本大语言模型(LLM)的公司,DeepSeek通过DeepGEMM进一步强化了其技术实力。

1. DeepGEMM的核心优势与创新

DeepGEMM的核心优势在于实现了DeepSeek-V3中提出的细粒度缩放功能,并特别优化了混合专家系统(MoE)架构中的分组矩阵乘法,这是DeepSeek-V3和DeepSeek-R1等先进模型的关键计算需求。它采用创新的安装方式,无需复杂的预编译过程,通过轻量级即时编译(JIT)模块在运行时编译所有内核,简化了部署和使用流程。 DeepGEMM用CUDA编写,核心内核函数仅约300行代码,易于理解和学习。

2. 精度与性能的平衡

当前版本的DeepGEMM针对NVIDIA Hopper张量核心进行了优化。为了解决FP8张量核心在累加计算时可能面临的精度问题,它采用了CUDA核心的两级累加技术,在保证速度的同时提升了计算精度。虽然借鉴了CUTLASS和CuTe的一些概念,但DeepGEMM避免了过度依赖,追求简洁的设计。

3. 令人印象深刻的性能表现

尽管设计轻量,DeepGEMM在各种矩阵形状下的性能表现都非常出色。在H800 GPU上使用NVCC 12.8的测试结果显示,在DeepSeek-V3/R1推理过程中可能用到的大多数矩阵形状(包括预填充和解码阶段,不包含张量并行)上,其性能能够媲美甚至超越那些由专家精心调优的库。

4. DeepGEMM的意义

DeepGEMM的推出对DeepSeek和整个AI社区都具有重要意义:

  1. 提升计算效率:优化底层矩阵运算,显著减少训练和推理时的计算资源需求,尤其适合硬件受限环境。
  2. 降低运行成本:支持DeepSeek以低成本构建高性能模型的战略,减少对高端硬件的依赖。
  3. MoE架构优化:针对MoE模型的特点进行了专门优化,提升了推理速度和能效。
  4. 开源赋能:作为DeepSeek开放策略的一部分,为开发者社区提供了一个强大的工具。

5. 总结

DeepGEMM的发布是DeepSeek开源周的又一亮点,它是一个高效、轻量级且易于使用的FP8 GEMM库,为构建高效、低成本的AI模型提供了强有力的支持,并为AI社区贡献了一个宝贵的开源资源。其在性能和精度上的平衡,以及对MoE架构的优化,使其成为深度学习领域的一项重要进展。


联系作者

文章来源:AI范儿
作者微信:
作者简介:专注于探索 AIGC,发掘人工智能的乐趣。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...