物理直觉不再是人类专属?LeCun等新研究揭示AI可如何涌现出此能力

构建世界模型前,需先理解世界。

物理直觉不再是人类专属?LeCun等新研究揭示AI可如何涌现出此能力

原标题:物理直觉不再是人类专属?LeCun等新研究揭示AI可如何涌现出此能力
文章来源:机器之心
内容字数:8328字

Yann LeCun团队最新研究:基于自然视频,AI模型涌现直觉物理理解

图灵奖得主Yann LeCun一直对主流的自回归LLM持批判态度,他认为世界模型才是通往AGI的正确方向。近日,其团队发表的最新研究成果似乎印证了他的观点:通过在自然视频上进行自监督预训练,一个名为V-JEPA的模型展现出了令人惊讶的直觉物理理解能力。

  1. 什么是直觉物理理解?

    直觉物理理解是人类认知的基础,指对物体行为的预测能力,例如物体不会凭空出现或消失、穿透障碍物等。 这项能力在人类婴儿以及许多动物身上都存在,被认为是核心知识系统的一部分。而现有的AI系统在这一方面却表现欠佳,这体现了莫拉维克悖论。

  2. V-JEPA:一种基于联合嵌入预测架构的模型

    为了解决这个问题,LeCun团队提出了一种新的模型——V-JEPA(视频联合嵌入预测架构)。V-JEPA 不同于以往的结构化模型(手工编码物体关系)和基于像素的生成模型,它在表示空间中进行预测,学习抽象表示,并通过预测视频中被掩蔽部分的表示来学习。这种机制与认知神经科学的预测编码假说相一致。

  3. 基于预期违反的评估方法

    研究团队采用预期违反范式来评估V-JEPA的物理直觉理解能力。该范式向模型展示物理上可能和不可能的视频对,通过测量模型对不可能视频的“意外程度”来判断其理解能力。实验结果显示,V-JEPA在IntPhys基准测试上达到了98%的零样本准确率,在InfLevel基准测试上达到了62%的零样本准确率,显著优于其他视频预测模型和多模态大语言模型。

  4. V-JEPA的性能分析与优势

    研究团队对V-JEPA的各个属性进行了分析,发现其在物体持久性、连续性、形状恒常性等方面表现出色。即使是小型模型或在有限数据上训练的模型也能达到显著高于随机水平的性能。这表明在学习到的表示空间中进行视频预测是获得物理直觉理解的一个稳健目标。与人类表现的比较也显示V-JEPA在许多方面达到了相同或更高的性能。

  5. 研究结论与意义

    这项研究表明,通过自监督预训练,深度学习系统可以从原始感知信号中学习到必要的抽象,从而发展出直觉物理理解能力,而无需依赖于预先定义的抽象或核心知识。这为构建具有高级人类智能水平的AI系统提供了新的思路,也为LeCun所倡导的世界模型研究方向提供了强有力的支持。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...