创造历史!DeepSeek登顶AppStore,开源竞相复现、Meta 很焦虑
AI 社区都开始学习了。
原标题:创造历史!DeepSeek登顶AppStore,开源竞相复现、Meta 很焦虑
文章来源:Founder Park
内容字数:6266字
DeepSeek横空出世,引发AI界震动
DeepSeek于20日发布的推理模型DeepSeek-R1,迅速在全球AI社区掀起热潮,其iOS应用甚至超越ChatGPT官方应用登顶App Store。DeepSeek-R1被美国顶尖大学研究人员广泛采用,其影响力之大,甚至被认为是OpenAI和英伟达都未曾预料到的“黑天鹅”。
1. R1复现热潮席卷AI社区
DeepSeek-R1虽然开源,但训练数据和脚本等并未完全公开。尽管如此,其技术报告仍为复现提供了指导,引发了众多团队参与复现的热潮。复现过程中遇到的难题包括:训练流程细节缺失(超参数、数据管道、奖励模型架构等)、冷启动数据生成细节缺乏、硬件和基础设施信息不足,以及缺少多阶段强化学习脚本等。
其中,Hugging Face的Open R1项目备受关注,计划分三步复现R1:第一步复现R1-Distill模型;第二步复现R1-Zero的强化学习管线;第三步通过多阶段训练得到强化学习微调版模型。香港科技大学何俊贤团队则基于7B模型和仅8K样本,取得了令人瞩目的成果,其模型在多个基准测试中表现优异。伯克利AI研究所潘家怡团队的TinyZero项目,更是以不到30美元的成本,基于CountDown游戏成功复现了DeepSeek-R1-Zero的部分功能,并从中得出了一些有趣的结论,例如基础模型质量的重要性以及指令模型的学习效率。
2. Meta的焦虑与应对策略
Meta内部人士爆料,DeepSeek-R1的出现让Meta陷入恐慌,担忧其下一代Llama模型性能无法与之匹敌。Meta已组建四个作战室,分别针对DeepSeek的成本降低技术、训练数据、新技术以及模型重构展开研究。Meta希望将DeepSeek的技术应用于Llama,并考虑推出一个类似DeepSeek的多模型版本,以提高效率和降低运行成本。
3. 未来展望
DeepSeek的出现无疑对AI领域产生了深远的影响,促使其他公司加快了技术迭代的步伐。Meta等公司面临的压力,将推动AI技术更快发展,也预示着2025年AI领域将出现新的格局和更具竞争力的模型。 DeepSeek带来的鲶鱼效应,将持续推动AI技术创新和应用。
联系作者
文章来源:Founder Park
作者微信:
作者简介:来自极客公园,专注与科技创业者聊「真问题」。