SemiAnalysis万字解析DeepSeek:训练成本、技术创新点、以及对封闭模型的影响

迄今为止海外对DeepSeek最全面的分析。

SemiAnalysis万字解析DeepSeek:训练成本、技术创新点、以及对封闭模型的影响

原标题:SemiAnalysis万字解析DeepSeek:训练成本、技术创新点、以及对封闭模型的影响
文章来源:Founder Park
内容字数:17819字

DeepSeek:颠覆性AI模型的全面解析

本文基于Semianalysis对DeepSeek的深度分析报告,以及其他可靠信息,客观呈现DeepSeek的各项突破及其背后的故事,并对相关传闻进行理性解读。

1. DeepSeek的惊人规模和资源投入

Semianalysis推测DeepSeek拥有约5万块Hopper GPU,总投资超过5亿美元。广为流传的600万美元训练成本,仅指V3模型的预训练阶段GPU费用,远非其总成本。DeepSeek团队约150人,主要来自北大、浙大等高校,年薪高达千万级别。

2. 核心技术创新:MLA和V3模型

DeepSeek的多头潜在注意力机制(MLA)是其大幅降低推理成本的关键,将每次查询所需的KV缓存减少约93.3%。其V3模型是R1的基础,在架构上取得了诸多突破,包括多标记预测(MTP)和高效的专家混合模型(MoE)。

3. R1模型与竞争对手的比较

R1模型在推理性能上与OpenAI的o1不相上下,但成本更低。虽然R1并未在技术上超越o1,甚至不如o3,但其低成本使其具有极强的竞争力。Google的Gemini Flash 2.0 Thinking在某些基准测试中也表现出色,但并未获得太多关注。

4. 低成本的误读与算法效率的提升

DeepSeek的低成本并非单纯依靠硬件,而是源于算法的巨大进步。算法效率每年提升4倍甚至10倍,使得用更少资源实现相同或更强性能成为可能。DeepSeek率先实现了这种成本和性能的结合。

5. DeepSeek的商业策略与未来展望

DeepSeek可能正以成本价甚至负利润率提供推理服务,以抢占市场份额。这种策略能否持续,仍存在疑问。开源实验室的崛起,将极大地惠及云服务提供商和基础设施供应商,并可能导致计算资源价值的提升。

6. 出口管制的影响与中国的支持

美国的出口管制措施对DeepSeek的芯片获取造成一定限制,但并未完全阻止其发展。中国对人工智能产业的大力支持,为DeepSeek提供了重要的发展机遇。未来DeepSeek是否会继续开源其模型,仍有待观察。

7. 总结

DeepSeek的出现,标志着AI模型发展进入一个新的阶段。其低成本、高性能的模型,以及核心技术创新,对整个AI行业产生了深远的影响。虽然面临着来自出口管制和市场竞争的挑战,但DeepSeek凭借其技术实力和资源优势,仍有望在未来取得更大的突破。


联系作者

文章来源:Founder Park
作者微信:
作者简介:来自极客公园,专注与科技创业者聊「真问题」。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...