李飞飞团队视觉AI突破:2025,多模态大模型迎来“视觉空间智能”时代?

希望 2025 年 AI 领域能带来推理之外的突破。

李飞飞团队视觉AI突破:2025,多模态大模型迎来“视觉空间智能”时代?

原标题:李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了
文章来源:机器之心
内容字数:5435字

机器之心报道:AI 2025 年的突破方向——空间智能

机器之心编辑部预测,2025 年 AI 领域将迎来推理之外的突破,其中“空间智能”将成为重要方向。 人类能够轻松地在脑海中重建空间,回忆物体的位置和大小,而这正是目前大型语言模型(LLM)所欠缺的。为了评估多模态大语言模型(MLLM)在空间思维上的能力,纽约大学、耶鲁大学和斯坦福大学的研究者们创建了 VSI-Bench 基准测试。

VSI-Bench:评估AI的空间智能

1. **基准测试介绍:** VSI-Bench 基于近 290 个真实室内场景视频,包含超过 5000 个问答对,涵盖物体计数、相对距离、出现顺序、相对方向、物体大小、绝对距离、房间面积和路径规划八项任务。视频数据采用连续时间性输入,更贴近人类感知世界的方式,比静态图像更能丰富空间理解和推理。

2. **评估结果:** 研究者对 15 个 MLLM(包括 Gemini-1.5、GPT-4o 等)进行了评估。结果显示,尽管 MLLM 表现出了竞争力,但与人类的 79% 平均准确率相比仍有较大差距。Gemini-1.5 Pro 表现最佳,但在需要精确估计的任务上,差距缩小。开源模型表现参差不齐,部分模型甚至低于机会基线。

模型行为分析与主要发现

1. **模型瓶颈:** 研究发现,空间推理是影响 MLLM 在 VSI-Bench 上性能的主要瓶颈,而非视觉感知或语言能力。

2. **错误类型:** 模型错误主要源于视觉感知、语言智能、关系推理和视角转换四个方面,其中 71% 的错误来自空间推理。

3. **语言提示的影响:** 研究表明,在空间推理任务中,常用的语言提示技术反而会降低模型的准确率。

4. **空间模型构建:** MLLM 在记忆空间时,会构建一系列局部世界模型,而非统一的全局模型。

空间智能的未来

这项名为“Thinking in Space”的研究,由李飞飞教授等学者主导,旨在评估 LLM 在空间推理方面的能力。研究结果表明,尽管目前 MLLM 在空间智能方面仍有很大提升空间,但其展现出的潜力也令人期待。 研究者们相信,未来 AI 助手需要具备更强的空间思维能力,才能更好地在日常生活中导航和互动。 VSI-Bench 的出现,为研究者们提供了一个重要的工具,推动着 AI 在空间智能领域的进步,未来将有更多突破值得期待。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...