为什么说DeepSeek的R1-Zero比R1更值得关注?
「推理即训练」的新范式可能彻底改变 AI 数据经济的运作方式。
原标题:为什么说DeepSeek的R1-Zero比R1更值得关注?
文章来源:Founder Park
内容字数:7151字
DeepSeek R1-Zero:强化学习引领AI推理新时代
本文总结了ARC Prize联合创始人Mike Knoop在其博客中对DeepSeek新发布的推理系统R1和R1-Zero的分析。Knoop认为,R1-Zero比R1更值得关注,因为它完全依赖强化学习(RL),无需人类专家标注的监督微调(SFT)。这表明在某些任务中,人类标注并非必要,未来可能通过纯RL方法实现更广泛的推理能力。
1. R1-Zero的突破性意义
DeepSeek同时发布了R1和R1-Zero两个模型,两者在ARC-AGI-1上的得分与OpenAI的o1系统低计算量版本相当(15-20%),远超纯LLM scaling的GPT-4o (5%)。R1-Zero的意义在于其完全摒弃了SFT,仅依靠RL进行训练,这挑战了以往对人类标注的依赖。虽然R1-Zero在可读性和语言混杂方面存在挑战,但在ARC-AGI-1测试中表现出色,几乎没有发现不连贯性,这表明在可清晰判断对错的领域,SFT并非必需。
2. 计算资源与AI可靠性
R1和R1-Zero的成功也揭示了投入更多计算资源可以显著提升AI系统准确性和可靠性的重要结论。这将增强用户对AI的信任,推动商业化应用。目前,AI可靠性是阻碍其广泛应用的主要障碍,而更高的准确性和可预测性错误将提升用户信任度。
3. “推理即训练”的新范式
文章指出,AI推理系统正在生成大量高质量的训练数据,且这些数据由用户付费产生,形成“推理即训练”的新范式。这将彻底改变AI数据经济的运作方式,形成一个自我强化的循环:更多用户付费使用,产生更多高质量数据,进而训练出更好的模型,吸引更多用户。这与以往购买或抓取数据的方式截然不同,并可能超越人类生成数据的预训练模式。
4. DeepSeek对AI领域的影响
DeepSeek的R1开源,将推动更多人探索CoT和搜索的极限,加速AGI的实现。R1-Zero的成功也表明,未来可能无需依赖人类标注就能训练出强大的AI推理系统,这将极大地降低AI开发的成本和门槛。文章最后指出,DeepSeek的突破推动了科学前沿,其开源的R1将对整个AI领域产生深远影响。
5. 总结
DeepSeek的R1-Zero模型,凭借其纯RL训练方式,在推理能力上取得了显著突破,挑战了传统AI模型对人类标注的依赖。同时,该模型的成功也展示了计算资源投入与AI可靠性提升之间的正相关关系,并催生了“推理即训练”的新数据经济模式。这些进展将极大推动AI技术的发展和应用。
联系作者
文章来源:Founder Park
作者微信:
作者简介:来自极客公园,专注与科技创业者聊「真问题」。