计算DeepSeek V3训练的MFU:相比V2提效61%!

计算DeepSeekV3训练的MFU

计算DeepSeek V3训练的MFU:相比V2提效61%!

原标题:计算DeepSeek V3训练的MFU:相比V2提效61%!
文章来源:智猩猩GenAI
内容字数:5637字

DeepSeekV3模型训练成本分析及第四届全球自动驾驶峰会预告

本文主要围绕DeepSeekV3模型的训练成本及其在人工智能领域的巨大影响展开,并附带第四届全球自动驾驶峰会的预告信息。

1. DeepSeekV3模型的突破性进展

自2024年12月发布以来,DeepSeekV3模型在人工智能领域引发广泛关注。其关键在于以低廉的成本(557万美元)实现了SOTA水平的性能,引发了业界对AI模型训练成本效益的重新思考。 该模型的成功,也使其成为中美科技博弈、中国创新实力等宏观议题的讨论焦点。

2. DeepSeekV3低训练成本的秘诀

DeepSeekV3低训练成本主要源于以下两个方面:

  1. 模型架构设计:采用MoE结构,参数量达671B,但激活参数仅37B,有效降低了计算量。
  2. 高效的训练框架:幻方自研的HAI-LLM框架,通过流水线并行、FP8量化、通信计算隐藏等工程优化技巧,极大地提升了训练效率。

3. DeepSeekV3 MFU的计算与分析

本文的核心内容是对DeepSeekV3模型训练期间MFU(Model FLOPs Utilization)的计算。MFU是衡量训练框架运行效率的关键指标,但长期以来被忽视。作者通过公开数据,采用多种方法对MFU进行估算,最终得出MFU约为39%的结论。 这相比DeepSeekV2的MFU提升了约60%。该计算过程涉及到对模型参数、FLOPs计算公式以及GPU资源利用率等多方面的综合考量,并考虑了不同计算方法带来的误差。

作者详细解释了计算MFU的步骤,包括:

  1. 参数说明:列出了模型的关键参数,例如维度、层数、专家数量等。
  2. FLOPs计算:分别计算了MLA、MoE和MLP等模块的FLOPs,并考虑了前向和反向传播。
  3. MFU计算公式:基于计算得到的FLOPs以及已知的GPU小时数,计算MFU。
  4. 结果对比:将DeepSeekV3与DeepSeekV2的MFU进行对比,量化了训练效率的提升。

4. DeepSeekV3的影响与讨论

DeepSeekV3的成功,不仅促进了对AI模型训练成本效益的讨论,也引发了关于美国对华技术出口管制政策有效性以及对英伟达股价影响的讨论。其影响力已远远超出技术领域本身。

5. 第四届全球自动驾驶峰会预告

最后,文章预告了将于1月14日在北京举办的第四届全球自动驾驶峰会。峰会将涵盖开幕式、多个专题论坛以及技术研讨会,内容涉及端到端自动驾驶、城市NOA、自动驾驶视觉语言模型和自动驾驶世界模型等领域。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止