超越DeepSeek推理，效率更高！斯坦福马腾宇新作：有限数据，无限迭代

原标题：超越DeepSeek推理，效率更高！斯坦福马腾宇新作：有限数据，无限迭代
文章来源：新智元
内容字数：5932字

斯坦福大学提出自博弈定理证明器STP：解决大型语言模型推理能力瓶颈

大型语言模型（LLM）的推理能力是当前自然语言处理领域的核心难题，其主要瓶颈在于缺乏高质量的训练数据。现有方法如强化学习和专家迭代，虽然能够提升模型推理能力，但存在通过率低、计算资源浪费严重等问题。斯坦福大学研究人员提出了一种名为自博弈定理证明器（STP）的新方法，有效解决了这些问题。

STP的核心思想：模仿数学家的学习方式
STP模仿数学家学习和发展数学的方式，让模型同时扮演“猜想者”和“证明者”两个角色，通过互相提供训练信号，在有限的数据下实现无限自我改进。猜想者提出新的猜想，证明者尝试证明，验证器选择正确的证明用于训练，从而形成一个闭环的自我迭代过程。
STP的训练流程：五个步骤
STP的训练流程包含五个步骤：1. 使用监督微调（SFT）初始化模型；2. 猜想者生成新的猜想；3. 证明者尝试证明猜想和未证明命题；4. 验证器验证证明的正确性并分配奖励；5. 基于验证结果重新训练模型。其中，奖励函数的设计是STP的核心技术难点，旨在激励猜想者生成多样化、具有挑战性但可行的猜想。
STP的优势：显著提升证明成功率和推理速度
实验结果表明，STP在Lean和Isabelle验证器上的表现显著优于现有方法。在LeanWorkbook数据集上，STP的证明成功率达到26.3%，是专家迭代方法的两倍。在miniF2F-test、ProofNet-test和PutnamBench等公共基准测试中，STP也实现了最先进的性能，显著提升了推理速度。
STP的创新点：无限自我改进和高效利用数据
STP的核心创新在于其自博弈机制，它能够在有限的数据集上不断生成新的猜想和证明，从而实现无限自我改进。这种机制有效解决了现有方法中数据稀缺和计算资源浪费的问题，并能够逐渐提升猜想和证明的难度。
STP的未来展望：推动LLM推理能力发展
STP为解决LLM推理能力瓶颈提供了一种新的思路，其高效的数据利用方式和强大的自我改进能力，有望推动LLM在数学推理等领域的应用发展。未来的研究可以进一步探索STP在其他领域（例如，程序验证、知识图谱推理）的应用，并改进奖励函数设计，提升模型的性能和鲁棒性。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

阅读原文

# AIGC动态 # 斯坦福马腾宇 # 无限迭代训练 # 有限数据深度学习 # 超越DeepSeek # 高效推理

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

超越DeepSeek推理，效率更高！斯坦福马腾宇新作：有限数据，无限迭代

斯坦福大学提出自博弈定理证明器STP：解决大型语言模型推理能力瓶颈

STP的核心思想：模仿数学家的学习方式

STP的训练流程：五个步骤

STP的优势：显著提升证明成功率和推理速度

STP的创新点：无限自我改进和高效利用数据

STP的未来展望：推动LLM推理能力发展

联系作者

雷军营销鬼才：小米 SU7 Ultra 狂砍 28 万，造车 4 年进军「新豪车」

深夜重磅！OpenAI 放大招：GPT-4.5正式上线！但价格贵到离谱…

相关文章

暂无评论

ChatGPT

玩虚拟模特？