万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025

Transformer架构的非递归设计阻碍了跨层的记忆共享,或限制模型泛化能力。

万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025

原标题:万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
文章来源:AI科技评论
内容字数:51445字

DeepSeek及其背后的AI推理能力探索

本文总结了AI智能体推理与决策研讨会(AIR 2025)上关于DeepSeek及其相关人工智能推理能力研究的精彩讨论。会议汇聚了来自伦敦大学学院、加州大学伯克利分校、普林斯顿大学等多所高校及Meta、华为等企业的专家学者,围绕强化学习、推理决策、AI智能体等议题展开深入探讨。

1. DeepSeek的开放训练方法

华盛顿大学Hanna Hajishirai教授团队的研究揭示了DeepSeek采用的语言模型推理开放训练方法,该方法包含三个阶段:指令微调(SFT)、偏好微调以及具有可验证奖励的强化学习。SFT通过指令和任务引导模型学习遵循指令;偏好微调则通过比较不同完成结果,选择更优结果来优化模型;强化学习则利用可验证奖励(例如,最终答案是否正确)进一步提升模型推理能力。该团队还通过角色扮演生成大量高质量数据,并利用混合数据策略优化模型性能,在数学推理等任务上取得了显著提升。

2. Transformer的隐式推理能力

俄亥俄州立大学Huan Sun教授团队的研究探讨了Transformer模型的隐式推理能力。研究发现,模型的泛化速度与其训练数据总量关系不大,而与“推断事实”与“原子事实”的比例密切相关,比例越高,泛化速度越快。通过logit lens分析,研究团队揭示了模型内部的“泛化电路”,并指出Transformer架构的非递归性限制了跨层记忆共享,从而影响了模型的泛化能力。

3. 符号结构与神经网络的统一

Meta GenAI田渊栋教授总结了应对大语言模型局限的几种方法:数据规模扩展、测试时扩展(使用更大模型、工具或思维链)以及符号结构与神经网络表示的统一。他介绍了利用梯度上升训练神经网络以发现符号结构的初步尝试,但该方法仍处于早期阶段。

4. 基于API的网络智能体

卡内基梅隆大学Graham Neubig教授团队的研究提出了一种混合Agent方案,该Agent能够交替执行网页浏览和API调用操作,结合两种方式的优势,提升了Agent在复杂网络任务中的性能。研究指出,高质量的API对于提升Agent性能至关重要。

5. 形式化数学推理

普林斯顿大学金驰教授团队介绍了其开发的开源大模型Goedel-Prover,该模型通过将自然语言数学问题翻译成形式语言(如Lean 4),并生成形式化证明,在自动定理证明方面达到了世界领先水平。该团队还探讨了形式化数学推理领域的数据稀缺问题,并提出了一些解决方法,例如自动形式化和神经猜想。

总结

AIR 2025会议的讨论展现了当前AI推理能力研究的前沿进展,DeepSeek作为其中的代表,其基于强化学习的开放训练方法为提升大语言模型推理能力提供了新的思路。同时,与会专家们也指出了Transformer架构的局限性以及未来研究方向,包括提高数据质量、改进模型架构、探索符号与神经网络的统一等,为推动AI智能体推理与决策能力的进一步发展奠定了基础。


联系作者

文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...