让视觉语言模型搞空间推理，谷歌又整新活了

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：让视觉语言模型搞空间推理，谷歌又整新活了
关键字：空间,模型,数据,视觉,研究者
文章来源：机器之心
内容字数：8656字

内容摘要：

机器之心报道
机器之心编辑部视觉语言模型虽然强大，但缺乏空间推理能力，最近 Google 的新论文说它的 SpatialVLM 可以做，看看他们是怎么做的。视觉语言模型 (VLM) 已经在广泛的任务上取得了显著进展，包括图像描述、视觉问答 (VQA)、具身规划、动作识别等等。然而大多数视觉语言模型在空间推理方面仍然存在一些困难，比如需要理解目标在三维空间中的位置或空间关系的任务。
关于这一问题，研究者们常常从「人类」身上获得启发：通过具身体验和进化发展，人类拥有固有的空间推理技能，可以毫不费力地确定空间关系，比如目标相对位置或估算距离和大小，而无需复杂的思维链或心理计算。
这种对直接空间推理任务的熟练，与当前视觉语言模型能力的局限形成鲜明对比，并引发了一个引人注目的研究问题：是否能够赋予视觉语言模型类似于人类的空间推理能力？
最近，谷歌提出了一种具备空间推理能力的视觉语言模型：SpatialVLM。论文标题：SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
论文地址：https

原文链接：让视觉语言模型搞空间推理，谷歌又整新活了