不要模糊了DeepSeek的真正价值。
原标题:我们应如何看待DeepSeek的557.6万美元训练成本?|甲子光年
文章来源:甲子光年
内容字数:13291字
DeepSeek-V3:降本增效的理性解读
本文探讨了DeepSeek-V3大模型训练成本大幅降低背后的,纠正了部分夸大宣传,并深入分析了其降本增效的策略。
1. 训练成本:并非“几十分之一”
DeepSeek-V3的训练成本为557.6万美元,远低于坊间流传的“中国AI企业用几百万美元的成本打败了美国AI企业数亿美元的投入”的说法。文章指出,这一数字仅包含正式训练阶段的成本,未计入前期研究、消融实验等“隐性成本”,且计算方式也影响最终结果。通过对标GPT-4、Llama 3.1和Claude 3.5 Sonnet等模型,文章估算了它们的训练成本,发现DeepSeek-V3的成本虽然大幅降低,但并非达到“几十分之一”的夸张程度。
2. DeepSeek的降本增效策略
DeepSeek-V3的成功并非偶然,其核心在于算法、框架和硬件的协同优化设计。文章详细介绍了DeepSeek团队在四个方面的优化策略:
- 负载均衡优化:采用“Auxiliary-loss-free”方案,避免了传统MoE模型中辅助损失带来的负面影响,实现了动态调整专家的负载。
- 通信优化:提出了DualPipe算法,通过重叠计算和通信阶段,最大限度地减少GPU空闲时间,并采用双向流水线机制,提高GPU利用率。
- 内存优化:采用了重计算、使用CPU内存和参数共享等策略,有效降低了内存消耗。
- 计算优化:采用混合精度训练策略(FP8),加速训练并减少GPU内存使用。
这些优化策略共同作用,显著提升了模型训练效率,从而降低了训练成本。 DeepSeek在有限的GPU资源和性能下,完成了与Llama 3.1 405B相近的训练量,体现了其在模型训练效率上的显著提升。
3. “小米加”式的成功
文章将DeepSeek的成功比作“小米加”,强调其成功并非依赖于某种单一突破性技术,而是扎实的基础研究和对细节的极致追求。DeepSeek团队注重第一性原理的思考,深入理解算法、软件和硬件的底层逻辑,并进行细致的优化,最终取得了显著成果。这体现了脚踏实地、持续创新的重要性。
总而言之,DeepSeek-V3的成功是团队长期努力和技术积累的结果,其降本增效的核心在于对算法、框架和硬件的协同优化设计,而不是简单的成本优势。 我们应该理性看待DeepSeek的成就,避免夸大宣传,也避免低估其技术价值。
联系作者
文章来源:甲子光年
作者微信:
作者简介:甲子光年是一家科技智库,包含智库、社群、企业服务版块,立足中国科技创新前沿阵地,动态跟踪头部科技企业发展和传统产业技术升级案例,推动人工智能、大数据、物联网、云计算、新能源、新材料、信息安全、大健康等科技创新在产业中的应用与落地。