SemiAnalysis万字解析DeepSeek：训练成本、技术创新点、以及对封闭模型的影响

迄今为止海外对DeepSeek最全面的分析。

原标题：SemiAnalysis万字解析DeepSeek：训练成本、技术创新点、以及对封闭模型的影响
文章来源：Founder Park
内容字数：17819字

本文基于Semianalysis对DeepSeek的深度分析报告，以及其他可靠信息，客观呈现DeepSeek的各项突破及其背后的故事，并对相关传闻进行理性解读。

Semianalysis推测DeepSeek拥有约5万块Hopper GPU，总投资超过5亿美元。广为流传的600万美元训练成本，仅指V3模型的预训练阶段GPU费用，远非其总成本。DeepSeek团队约150人，主要来自北大、浙大等高校，年薪高达千万级别。

DeepSeek的多头潜在注意力机制(MLA)是其大幅降低推理成本的关键，将每次查询所需的KV缓存减少约93.3%。其V3模型是R1的基础，在架构上取得了诸多突破，包括多标记预测(MTP)和高效的专家混合模型(MoE)。

R1模型在推理性能上与OpenAI的o1不相上下，但成本更低。虽然R1并未在技术上超越o1，甚至不如o3，但其低成本使其具有极强的竞争力。Google的Gemini Flash 2.0 Thinking在某些基准测试中也表现出色，但并未获得太多关注。

DeepSeek的低成本并非单纯依靠硬件，而是源于算法的巨大进步。算法效率每年提升4倍甚至10倍，使得用更少资源实现相同或更强性能成为可能。DeepSeek率先实现了这种成本和性能的结合。

DeepSeek可能正以成本价甚至负利润率提供推理服务，以抢占市场份额。这种策略能否持续，仍存在疑问。开源实验室的崛起，将极大地惠及云服务提供商和基础设施供应商，并可能导致计算资源价值的提升。

美国的出口管制措施对DeepSeek的芯片获取造成一定限制，但并未完全阻止其发展。中国对人工智能产业的大力支持，为DeepSeek提供了重要的发展机遇。未来DeepSeek是否会继续开源其模型，仍有待观察。

DeepSeek的出现，标志着AI模型发展进入一个新的阶段。其低成本、高性能的模型，以及核心技术创新，对整个AI行业产生了深远的影响。虽然面临着来自出口管制和市场竞争的挑战，但DeepSeek凭借其技术实力和资源优势，仍有望在未来取得更大的突破。

文章来源：Founder Park
作者微信：
作者简介：来自极客公园，专注与科技创业者聊「真问题」。

文章版权归作者所有，未经允许请勿转载。

暂无评论...