让视觉语言模型搞空间推理,谷歌又整新活了

让视觉语言模型搞空间推理,谷歌又整新活了

AIGC动态欢迎阅读

原标题:让视觉语言模型空间推理,谷歌又整新活了
关键字:空间,模型,数据,视觉,研究者
文章来源:机器之心
内容字数:8656字

内容摘要:


机器之心报道
机器之心编辑部视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。视觉语言模型 (VLM) 已经在广泛的任务上取得了显著进展,包括图像描述、视觉问答 (VQA)、具身规划、动作识别等等。然而大多数视觉语言模型在空间推理方面仍然存在一些困难,比如需要理解目标在三维空间中的位置或空间关系的任务。
关于这一问题,研究者们常常从「人类」身上获得启发:通过具身体验和进化发展,人类拥有固有的空间推理技能,可以毫不费力地确定空间关系,比如目标相对位置或估算距离和大小,而无需复杂的思维链或心理计算。
这种对直接空间推理任务的熟练,与当前视觉语言模型能力的局限形成鲜明对比,并引发了一个引人注目的研究问题:是否能够赋予视觉语言模型类似于人类的空间推理能力?
最近,谷歌提出了一种具备空间推理能力的视觉语言模型:SpatialVLM。论文标题:SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
论文地址:https


原文链接:让视觉语言模型搞空间推理,谷歌又整新活了

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...