SemiAnalysis万字解析DeepSeek:训练成本、技术创新点、以及对封闭模型的影响
迄今为止海外对DeepSeek最全面的分析。
原标题:SemiAnalysis万字解析DeepSeek:训练成本、技术创新点、以及对封闭模型的影响
文章来源:Founder Park
内容字数:17819字
DeepSeek:颠覆性AI模型的全面解析
本文基于Semianalysis对DeepSeek的深度分析报告,以及其他可靠信息,客观呈现DeepSeek的各项突破及其背后的故事,并对相关传闻进行理性解读。
1. DeepSeek的惊人规模和资源投入
Semianalysis推测DeepSeek拥有约5万块Hopper GPU,总投资超过5亿美元。广为流传的600万美元训练成本,仅指V3模型的预训练阶段GPU费用,远非其总成本。DeepSeek团队约150人,主要来自北大、浙大等高校,年薪高达千万级别。
2. 核心技术创新:MLA和V3模型
DeepSeek的多头潜在注意力机制(MLA)是其大幅降低推理成本的关键,将每次查询所需的KV缓存减少约93.3%。其V3模型是R1的基础,在架构上取得了诸多突破,包括多标记预测(MTP)和高效的专家混合模型(MoE)。
3. R1模型与竞争对手的比较
R1模型在推理性能上与OpenAI的o1不相上下,但成本更低。虽然R1并未在技术上超越o1,甚至不如o3,但其低成本使其具有极强的竞争力。Google的Gemini Flash 2.0 Thinking在某些基准测试中也表现出色,但并未获得太多关注。
4. 低成本的误读与算法效率的提升
DeepSeek的低成本并非单纯依靠硬件,而是源于算法的巨大进步。算法效率每年提升4倍甚至10倍,使得用更少资源实现相同或更强性能成为可能。DeepSeek率先实现了这种成本和性能的结合。
5. DeepSeek的商业策略与未来展望
DeepSeek可能正以成本价甚至负利润率提供推理服务,以抢占市场份额。这种策略能否持续,仍存在疑问。开源实验室的崛起,将极大地惠及云服务提供商和基础设施供应商,并可能导致计算资源价值的提升。
6. 出口管制的影响与中国的支持
美国的出口管制措施对DeepSeek的芯片获取造成一定限制,但并未完全阻止其发展。中国对人工智能产业的大力支持,为DeepSeek提供了重要的发展机遇。未来DeepSeek是否会继续开源其模型,仍有待观察。
7. 总结
DeepSeek的出现,标志着AI模型发展进入一个新的阶段。其低成本、高性能的模型,以及核心技术创新,对整个AI行业产生了深远的影响。虽然面临着来自出口管制和市场竞争的挑战,但DeepSeek凭借其技术实力和资源优势,仍有望在未来取得更大的突破。
联系作者
文章来源:Founder Park
作者微信:
作者简介:来自极客公园,专注与科技创业者聊「真问题」。