本文整理自 InfoQ 策划的 DeepSeek 系列直播第二期节目——DeepSeek 爆火背后 DeepSeek,纯强化学习路线到底有何不同。
原标题:DeepSeek 颠覆了什么?学习不靠“人盯”,AI自己“卷”自己
文章来源:AI前线
内容字数:18155字
DeepSeek:纯强化学习路线的推理模型
本文总结了InfoQ DeepSeek系列直播第二期节目的要点,聚焦出门问问大模型团队前工程副总李维博士对DeepSeek及其R1模型的解读。李博士认为,DeepSeek通过开源和透明化,展示了纯强化学习路线训练推理模型的可行性,颠覆了业界传统认知,也挑战了OpenAI的观点。
DeepSeek的突破与开源的意义
DeepSeek最大的贡献在于将推理模型的强化学习训练过程透明化。此前,OpenAI等头部公司在推理大模型(如O1)的研发上讳莫如深,DeepSeek则将模型和技术论文全部开源,甚至公开思维链内容。这使得纯强化学习路线,即仅通过结果控制而非过程监督,训练出优秀推理模型成为可能,为业界提供了“平民化”的道路。
推理范式的创新:Zero研究
DeepSeek的R1论文的核心是Zero研究。Zero证明了无需过程监督,仅通过最终结果作为监督信号,就能训练出具备“慢思考”(System 2)能力的推理模型。这借鉴了AlphaZero的思想,模型能够自主生成内部过程数据(思维链,CoT),无需人工标注。通过设计简单的模板(question+[think]+answer),引导模型自主填补[think]部分,生成CoT,并通过强化学习迭代,最终实现推理能力的提升。 模型在强大的基座模型(如V3)基础上生成数据,经过筛选和强化学习迭代,思维链会越来越条理化,最终导向正确答案。
避免模型“跑偏”及思维链机制
基于强大的基座模型,模型生成的思维链虽然不总是完美无缺,但不会偏离到完全不合理的情况。强化学习过程以结果为导向,即使思维链出现偏差,最终目标仍然一致。此外,DeepSeek的研究表明,再生数据在提升模型能力方面至关重要,尤其在数据匮乏的领域(如中文诗词创作)。
DeepSeek的思维链机制是通过在question和answer之间加入[think]标签,让模型自主生成CoT。模型会在推理过程中进行反思和自我纠正,降低困惑度,提高得出正确结论的可能性。
R1的亮点:语言文字创作与风格模仿
R1的另一个显著亮点是将推理思维链应用于语言文字创作和风格模仿。这不仅提升了模型在数学和代码领域的性能,更使其在诗歌创作、文风模仿等方面展现出令人惊艳的能力,这扩大了推理模型的应用范围,使其对普通用户也具有吸引力。
值得复现的模块及未来展望
李博士推荐程序员复现Zero研究相关的部分,这可以验证模型自主学习反思能力的可能性,并启发他们在自身领域应用类似技术。R1的四阶段训练(SFT+RL+SFT+RL)提供了最佳实践,结合微调和强化学习,提升模型在特定领域的性能。DeepSeek的成功降低了大模型应用的门槛,加速了大模型向应用领域发展的速度。
李博士认为,AI编程的终极形态是程序员能用自然语言描述需求,AI直接输出可部署的代码和运维方案。未来,AI有望在脑力劳动和体力劳动中全面替代人类,这将带来社会结构的巨大变革。
联系作者
文章来源:AI前线
作者微信:
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。