LeCun世界模型再近一步!Meta研究证明:AI可无先验理解直觉物理

LeCun世界模型再近一步!Meta研究证明:AI可无先验理解直觉物理

原标题:LeCun世界模型再近一步!Meta研究证明:AI可无先验理解直觉物理
文章来源:人工智能学家
内容字数:16644字

Meta新研究:AI无需硬编码即可理解物理直觉

Meta最新研究表明,其研发的视频联合嵌入预测架构V-JEPA,在无需任何先验物理知识的情况下,通过自监督学习,展现出了对直观物理学的理解能力,超越了以往基于像素的预测模型和多模态大型语言模型(MLLM)。这被认为是人工智能领域的一项关键性突破,为AI理解物理世界开辟了“第三条路”。

1. 莫拉维克悖论与直观物理理解

长期以来,AI在高级认知任务上表现优异,却难以理解看似简单的直观物理,例如物体不会凭空消失或穿过障碍物等。这被称为莫拉维克悖论。以往的研究主要集中在两种方法:结构化模型(手工编码物理知识)和基于像素的生成模型(从像素级预测未来)。V-JEPA则代表了一种新的尝试,它介于两者之间,在抽象的表征空间中进行预测。

2. V-JEPA架构及工作原理

V-JEPA由编码器和预测器两个神经网络组成。编码器从视频中提取抽象表示,预测器则预测视频中被遮蔽部分的表示。通过联合训练,编码器学习到可预测信息的抽象表示,并忽略低层次特征。在训练后,V-JEPA可以直接用于评估模型对物理世界的理解程度。通过比较预测的视频表示与实际观察到的表示,计算“惊讶度”指标,以此判断视频是否违反了物理定律。

3. 实验结果与对比

在IntPhys、GRASP和InfLevel三个数据集上,V-JEPA在识别违反物理定律的视频方面显著优于VideoMAEv2等视频预测模型和Qwen2-VL-7B、Gemini 1.5 Pro等多模态LLM。V-JEPA在物体持久性、连续性等属性上表现出色,准确率远高于未经训练的网络,甚至在某些方面超过了人类的表现。然而,在涉及复杂物体交互或需要理解上下文的属性上,V-JEPA仍存在一定的局限性。

4. 消融实验与关键因素

研究人员进行了消融实验,探究训练数据、模型大小和预训练任务对V-JEPA性能的影响。结果表明,预训练任务的影响相对较小,在抽象表征空间中进行预测才是关键;预训练数据来源对性能影响显著,HowTo100M数据集表现最佳;更大的模型通常表现更好,但即使是小模型也能达到较高的准确率。

5. 结论与未来展望

V-JEPA证明了深度学习系统无需硬编码物理知识,也能从原始感知信号中学习到对直观物理的理解。这项研究为AI理解物理世界提供了新的思路,也为未来AI系统的发展提供了重要的参考价值。 未来的研究可以进一步探索V-JEPA的局限性,并尝试改进其在处理复杂场景和物体交互方面的能力。


联系作者

文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...