DeepSeek利空算力?

DeepSeek利空算力?

原标题:DeepSeek利空算力?
文章来源:人工智能学家
内容字数:10662字

幻方模型与AI算力竞争:一场开源的胜利

本文总结分析了幻方DeepSeek模型(特别是v3和r1)对AI算力竞争格局的影响,以及开源模型与闭源模型的博弈。文章指出,单纯关注训练成本的数字具有误导性,需要从多个维度进行综合考量。

  1. 训练成本的:远不止550万美元

    广泛流传的550万美元仅指DeepSeek v3的正式训练成本,并非其全部研发成本。这笔费用甚至只是实际成本的一小部分,因为前期研究、算法迭代、数据生成(例如使用幻方自己的r1模型生成数据)等成本并未包含在内。开源模型的探索阶段必然伴随资源浪费,而闭源模型则可以“站在巨人肩膀上”,节约大量成本。

  2. 算力效率的指数级提升

    随着算法进步(如FP8、混合MoE)、算力通缩以及模型蒸馏等技术的应用,训练同一代模型所需的算力呈指数级下降。这使得后发追赶者可以以更低的成本获得与前沿探索者相近的结果。幻方r1的训练成本必然高于v3,但这并不代表其整体研发成本更高,因为效率的提升抵消了部分成本。

  3. 降本增效并非实验室的最终目标

    训练效率的提升并不会减少实验室的整体投入,反而会促使他们利用更高效率去追求更大的收益,从而榨取更多算力。幻方在基础设施优化和提前囤卡的情况下仍然缺卡,说明算力需求的增长速度远超成本下降速度。北美一些实验室虽然投入更多,但最终目标并非单纯降本增效,而是通过规模化优势攫取更大的智能提升。

  4. 开源的胜利与闭源的困境

    幻方代表了开源模型对闭源模型的一次胜利。开源社区的繁荣迅速转化为模型的进步,反之,那些跑不过开源模型的闭源公司只能被迫倒闭、转型或转向开源。中国市场已经提前经历了这一过程,而如今,中国的开源模型也开始对北美闭源模型形成冲击。如果一家公司无法超越现有开源模型,其API价值将大幅缩水。

  5. 推理成本的性降低

    相比训练成本,幻方在推理成本上的降低更为显著。DeepSeek架构的兼容性强,易于支持各种类型的显卡,这降低了推理成本,并推动了应用的繁荣,最终反而会拉动更大的算力需求。这与早期昂贵的闭源模型形成了鲜明对比,并预示着未来LLM应用生态的繁荣。

  6. 未来:算力才是真正的决胜因素

    北美CSP的巨额投资并非完全用于模型训练,更多用于自身业务需求和推理业务增长。微软已经开始转向回报更确定的推理业务。虽然过去在探索性训练上的投入可能存在浪费,但开源的繁荣最终会利好这些“中间商”。未来,算力将成为AI发展的核心驱动力,而那些能够高效利用算力的模型和公司将最终胜出。

总而言之,对AI算力竞争的评估不能仅局限于训练成本的数字比较,更要关注算力效率的提升、开源与闭源的博弈以及推理成本的降低。最终,拥有更先进的算法、更强大的算力以及更有效的应用生态将成为AI领域的胜负关键。


联系作者

文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...