与其让模型变得更大,不如让它们更聪明。
原标题:赶紧放弃强化学习?!Meta 首席 AI 科学家杨立昆喊话:当前推理方式会“作弊”,卷大模型没有意义!
文章来源:AI前线
内容字数:21113字
Yann LeCun 论 AI 的未来:超越大语言模型的暴力计算
Meta 首席 AI 科学家 Yann LeCun 近日在 AI Action Summit 2025 上发表演讲,指出当前基于深度学习的大语言模型(LLM)存在根本性缺陷,并提出了构建真正“会思考”的 AI 模型的新方向。
1. 现有 AI 的局限性:莫拉维克悖论与“幻觉”
LeCun 认为,现有 AI 系统,例如 GPT 模型,通过自回归方式逐个生成 token,依赖预测器重复操作,导致其具有发散性,容易出现“幻觉”。 这种基于预测下一个词元的模式,即使在拥有海量数据的情况下,也无法重现人类或动物的常识和对物理世界的理解。他用“莫拉维克悖论”解释了这一现象:AI 在复杂任务(如语言生成)上表现出色,但在简单任务(如收拾餐桌)上却力不从心。 这表明,单纯依靠文本数据无法达到人类智能水平,高级 AI 需要对世界有更深层次的理解。
2. 高级机器智能(AMI)的要素
LeCun 提出“高级机器智能”(AMI)的概念,而非“通用人工智能”(AGI)。AMI 应具备以下特征:从感官输入中学习、具有持久记忆、能够规划和推理、可控且安全。 他强调,安全性的实现不应依赖于微调,而应在系统设计中固化。
3. 基于世界模型的推理:从预测到规划
LeCun 认为,改变 AI 的推理方式是关键。他提出了基于“能量函数”的推理模式,这与经典 AI 和概率图模型的思路相近,更接近人类的“系统二”思维(理智思考)。 这种模式下,系统通过寻找最小化能量函数的输出值来进行推理,复杂问题会花费更多时间,简单问题则更快。 这与当前 LLM 的“系统一”思维(直觉反应)截然不同。
他进一步介绍了“世界模型”的概念,即系统在抽象表示空间中,根据当前状态和动作序列预测未来状态。 这使得 AI 能够进行层次化规划,从宏观目标分解到具体的动作,类似于人类的思考和行动过程。 目前,AI 系统缺乏这种自主学习层次化表示和规划的能力。
4. JEPA 架构:超越生成模型
LeCun 批判了生成式模型在视频生成上的局限性,并提出了“联合嵌入预测架构”(JEPA)。 JEPA 不直接预测像素,而是预测内容的抽象表示,从而避免了对无法预测因素的处理,简化了预测过程。 他特别强调了基于动作条件的 JEPA 变体,它可以作为世界模型,用于规划和决策。
5. 训练 JEPA:放弃对比方法,转向正则化
LeCun 指出,训练 JEPA 需要新的方法,他建议放弃对比方法,转向正则化方法,以最小化低能量空间的体积。 他介绍了几种正则化方法,包括基于信息内容的正则化和蒸馏方法,并分析了这些方法的优缺点和适用场景。
6. V-JEPA 和基于 Dino 的世界模型:实际应用
LeCun 展示了 V-JEPA 在视频处理中的应用,以及基于 Dino 特征的世界模型在机器人规划中的应用。 这些例子展示了 JEPA 架构在学习常识、进行规划和控制方面的潜力。
7. AI 的未来:开源与协作
LeCun 呼吁放弃对生成模型、概率模型、对比方法和强化学习的过度依赖,转向基于能量函数和世界模型的新的 AI 架构。 他强调开源 AI 平台的重要性,认为只有通过全球范围内的协作,才能构建真正普惠且安全的 AI 系统。
联系作者
文章来源:AI前线
作者微信:
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。