DeepSeek 风暴席卷全球
原标题:万字揭秘DeepSeek!这个创新让全世界疯狂复制,顶尖AI人才年薪千万,训练成本被低估
文章来源:爱范儿
内容字数:15219字
DeepSeek:席卷全球的AI风暴与背后的
近期,DeepSeek这家中国AI公司以其强大的模型和极低的成本,引发了全球AI行业的热议。Semianalysis发布的深度报告,为我们揭开了DeepSeek的神秘面纱,并对诸多传闻进行了客观论述。
1. DeepSeek的惊人规模与资源
报告推测DeepSeek拥有约5万块Hopper GPU,总投资超过5亿美元。这并非空穴来风,其母公司幻方量化早在2021年就已投资大量A100 GPU,并持续投入资源。DeepSeek的服务器资本支出总额约为16亿美元,其中运营成本高达9.44亿美元。这解释了DeepSeek模型性能强大的原因,也驳斥了其成本低廉的误解。
2. 人才战略与高薪招聘
DeepSeek团队约150人,主要从北大、浙大等中国高校招聘顶尖人才,年薪高达千万人民币。这种不拘泥于资历,注重能力与好奇心的招聘策略,吸引了众多优秀人才,也促进了公司的快速发展。
3. MLA技术:降低推理成本的关键
DeepSeek的多头潜在注意力(MLA)机制是其大幅降低推理成本的关键创新。MLA将每次查询所需的KV缓存减少了约93.3%,显著降低了硬件需求和运营成本。这在业界引起广泛关注,预计会被其他实验室快速复制。
4. 模型性能与成本效益
DeepSeek的R1模型在推理性能上与OpenAI的o1不相上下,甚至在某些方面超越了GPT-4o(2024年5月发布)。然而,报告指出,R1的基准测试存在选择性,o3模型的性能明显高于R1和o1。Google的Gemini 2.0 FlashThinking模型也展现出与R1相当的性能,但成本更低。
DeepSeek V3的600万美元训练成本只是冰山一角,不包含研发费用和硬件成本等。报告认为,算法效率的提升,使得用更少的计算资源即可训练和推理出性能相近的模型,DeepSeek只是率先实现了这一目标。
5. 开源与合作
DeepSeek的开源模型体现了杨立昆所提倡的共享创新成果的理念。报告认为DeepSeek是目前最优秀的“开源权重”实验室,超越了Meta的Llama项目和Mistral等竞争者。DeepSeek与华为的合作也为其提供了技术支持。
6. 未来展望
报告指出,DeepSeek以低成本甚至零利润的方式提供推理服务,是为了抢占市场份额。这种策略打破了OpenAI的利润率垄断,但这种领先地位可能难以持续。未来,AI实验室的竞争将更加激烈,拥有先进技术的企业将掌握定价权,而技术落后的企业则需通过降低价格来维持竞争力。
总而言之,Semianalysis的报告为我们提供了对DeepSeek这家公司更为全面和客观的认识。其成功并非偶然,而是依靠强大的技术创新、高水平的人才团队以及高效的资源整合。DeepSeek的崛起也标志着AI行业竞争格局的深刻变化,将推动整个行业的技术进步和成本下降。
联系作者
文章来源:爱范儿
作者微信:
作者简介:关注明日产品的数字潮牌