拾象科技闭门讨论:86 条 DeepSeek 的关键思考
比技术更重要的是愿景。
原标题:拾象科技闭门讨论:86 条 DeepSeek 的关键思考
文章来源:Founder Park
内容字数:18985字
DeepSeek:一场闭门讨论会揭秘神秘东方力量
DeepSeek-R1 的横空出世,迅速引发全球AI社区的关注,但关于DeepSeek 的高质量信息却相对匮乏。2025年1月26日,一场由拾象创始人兼CEO李广密组织的DeepSeek闭门讨论会,汇聚了数十位顶尖AI研究员、投资人和一线从业者,对DeepSeek的技术细节、组织文化及未来影响进行了深入探讨。本文总结了该讨论会的要点,旨在揭示DeepSeek的部分面纱。
1. DeepSeek的核心与优势
1. DeepSeek 创始人梁文锋是核心人物,技术实力雄厚。2. DeepSeek 的成功在于率先复现MoE、o1等技术,但仍有很大提升空间。3. DeepSeek 长上下文能力提升迅速,常规方法即可实现10K上下文窗口。4. DeepSeek 算力规模可能低于外界预期,注重合规,未采购任何不合规GPU。5. DeepSeek 专注于单一方向(推理),放弃多模态等,将重点放在“push智能”上,而非单纯服务于人,这可能是其成功的关键。6. DeepSeek 作为“黄埔军校”,对人才培养贡献巨大,其商业模式或与量化投资有关。7. DeepSeek在技术层面注重节约硬件成本,在多个扩展方向上都展现了成本控制的技巧。
2. 探索者与追赶者:算力与效率的博弈
8. AI发展类似阶跃函数,追赶者算力需求远低于探索者。9. 探索者需要大量算力进行模型探索和算法创新,而追赶者更关注效率提升。10. 小公司因算力有限,更注重效率;大公司则更关注模型快速迭代和稳定性。11. 国内下一个追赶方向可能是多模态,因为海外GPT-5迟迟未发布。
3. DeepSeek的技术细节
12. DeepSeek 最大的震撼在于无需进行大量有监督微调 (SFT),尤其在推理层面。13. DeepSeek-R1巧妙地利用RLHF生成数据,再进行SFT蒸馏,提升了效率。14. DeepSeek 在数据标注上非常重视,这可能是其模型效率高的关键因素之一。15. 蒸馏技术虽然能提升效率,但可能导致模型多样性下降,限制模型上限。16. DeepSeek 的过程奖励机制 (Process Reward) 值得进一步研究,其有效性及避免奖励劫持 (Reward Hack) 的方法仍需探索。17. DeepSeek对过程奖励的探索,表明了对模型推理过程的关注,但过程监督可能存在上限。
4. DeepSeek的影响与未来
18. DeepSeek 的出现挑战了英伟达和OpenAI的叙事,引发了对算力需求变化的重新思考。19. DeepSeek 的开源策略对闭源模型构成挑战,但两者目前处于共存状态。20. DeepSeek 的出圈提升了中国AI的国际影响力,缩短了与美国AI的差距。21. 未来AI发展可能呈现分化趋势,新的架构、RL算法和产品形态将不断涌现。22. DeepSeek的成功,证明了在有限算力下,通过高效的工程能力和技术创新,同样可以取得突破性进展。23. DeepSeek 的长期影响有待观察,但其对AI领域带来的冲击是毋庸置疑的。
联系作者
文章来源:Founder Park
作者微信:
作者简介:来自极客公园,专注与科技创业者聊「真问题」。