DeepSeek-Prover-V1.5

DeepSeek-Prover-V1.5是一款由DeepSeek团队开发的开源数学模型，凭借其70亿参数的强大计算能力，显著提升了数学定理证明的效率与准确性。该模型融合了强化学习（RLPAF）与蒙特卡洛树搜索（特别是RMaxTS变体），在高中及大学级别的数学问题上，取得了超越其他开源模型的卓越表现，并在Lean 4平台上创造了新的最先进水平（SOTA）。DeepSeek-Prover-V1.5不仅能够验证已有的数学证明，还有望为数学领域的创新做出贡献，推动研究进入“大数学”时代。

DeepSeek-Prover-V1.5是什么

DeepSeek-Prover-V1.5是由DeepSeek团队研发的一款开源数学大模型，拥有70亿个参数。该模型通过强化学习（RLPAF）和蒙特卡洛树搜索（尤其是RMaxTS变体）的结合，在数学定理的证明效率和准确性方面取得了显著提升。该模型在高中和大学级别的数学问题上，尤其在Lean 4平台上的表现超过了所有其他开源模型，创造了新的最先进水平（SOTA）。它不仅能验证现有的证明，还具备创造新数学知识的潜力，为数学研究开辟了新的可能性。

主要功能

强化学习优化：该模型利用基于证明助手反馈的强化学习（RLPAF），通过Lean证明器的验证结果作为奖励信号，优化证明生成的过程。
蒙特卡洛树搜索：引入RMaxTS算法，这是一种改进的蒙特卡洛树搜索方法，用于解决证明搜索中的奖励稀疏问题，增强模型的探索能力。
证明生成能力：能生成高中和大学级别的数学定理证明，大幅提升证明的成功率。
预训练与微调：在高质量的数学和代码数据上进行预训练，并针对Lean 4代码补全数据集进行监督微调，增强模型的形式化证明能力。
自然语言与形式化证明对齐：通过DeepSeek-Coder V2在Lean 4代码旁注释自然语言推理链，将自然语言推理与形式化定理证明相结合。

技术原理

预训练（Pre-training）：DeepSeek-Prover-V1.5在数学及代码数据上进行了深入的预训练，专注于Lean、Isabelle和Metamath等形式化数学语言，以提升其形式化定理证明和数学推理的能力。
监督微调（Supervised Fine-tuning）：通过特定的数据增强技术，例如在Lean 4代码旁添加自然语言思维链注释，以及在证明代码中插入中间策略状态信息，来提高模型对自然语言与形式化证明之间一致性的理解。
强化学习（Reinforcement Learning）：采用GRPO算法进行基于证明助手反馈的强化学习，利用Lean证明器的验证结果作为奖励信号，进一步优化模型，使其更符合形式化验证系统的需求。
蒙特卡洛树搜索（Monte-Carlo Tree Search， MCTS）：引入一种新的树搜索方法，通过截断和重新开始机制，将不完整的证明分解为树节点序列，并利用这些节点继续生成证明。
内在奖励驱动的探索（Intrinsic Rewards for Exploration）：DeepSeek-Prover-V1.5通过RMaxTS算法使用内在奖励来驱动探索行为，鼓励模型生成多样化的证明路径，从而解决奖励稀疏问题。

DeepSeek-Prover-V1.5