「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了

原标题：「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了
文章来源：人工智能学家
内容字数：11080字

本文总结了DeepSeek公司最新发布的开源推理模型DeepSeek-R1的各项关键信息，该模型在数学、代码和自然语言推理等领域的表现已达到与OpenAI的o1正式版相当的水平，引发了业界广泛关注。

DeepSeek-R1采用多阶段循环训练策略，包括基础训练、强化学习(RL)和微调等多个阶段。这种创新方法显著提升了模型的推理能力，尤其在标注数据有限的情况下效果更佳。AutoAWQ作者Casper Hansen认为，多阶段训练是DeepSeek-R1性能提升的关键。

DeepSeek-R1在多个数据集上的表现与OpenAI的o1-1217、o1-mini以及DeepSeek-V3不相上下，甚至在某些任务上超越了现有模型。此外，DeepSeek还开源了六个不同参数规模的小模型(1.5B至70B)，进一步推动了AI技术的普及。

DeepSeek-R1不仅开源模型权重，还提供价格极具竞争力的API服务。与OpenAI相比，其API定价远低于后者，这将吸引更多开发者和企业使用，推动AI技术的商业化应用。

DeepSeek-R1的核心在于创新性地应用强化学习。它摒弃了传统的监督微调(SFT)冷启动方式，直接通过大规模强化学习提升推理能力，降低了训练成本并提高了模型的适应性和灵活性。例如，DeepSeek-R1-Zero采用群组相对策略优化(GRPO)提高训练效率。

DeepSeek-R1采用准确度和格式两种互补的奖励机制，并设计了简单的训练模板，引导模型先给出推理过程再提供最终答案，这保证了模型输出的规范性和正确性，也促进了模型自主发展高级解题策略。

DeepSeek-R1-Zero在训练过程中展现出显著的自我进化能力。例如，在处理2024年AIME数学奥赛试卷时，其平均pass@1分数从15.6%显著提升到71.0%，甚至在多数投票机制下超过了OpenAI-o1-0912。

为了解决强化学习训练早期的冷启动问题，DeepSeek-R1使用了少量长CoT数据进行微调。尽管取得了显著突破，但DeepSeek-R1-Zero仍存在回答可读性差、语言混杂等问题，开发团队正通过语言一致性奖励、拒绝采样和监督微调等方法解决这些问题。

DeepSeek团队利用DeepSeek-R1整理的80万个样本对Qwen和Llama等开源模型进行微调，显著提升了小模型的推理能力。

DeepSeek-R1的开源策略和高性价比，为AI行业树立了新的标杆，未来有望在更多领域实现应用，推动AI技术发展。其开源精神和技术突破，为AI研究和商业化应用带来了新的可能性。

联系作者

文章来源：人工智能学家
作者微信：
作者简介：致力成为权威的人工智能科技媒体和前沿科技研究机构

文章版权归作者所有，未经允许请勿转载。

暂无评论...