让AI更懂物理世界！人大北邮上海AI Lab等提出多模态分割新方法 | ECCV2024

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：让AI更懂物理世界！人大北邮上海AI Lab等提出多模态分割新方法 | ECCV2024
关键字：显著特征,表达式,对象,子集,时序
文章来源：量子位
内容字数：0字

内容摘要：

中国人民大学王耀霆投稿量子位 | 公众号 QbitAI让AI像人类一样借助多模态线索定位感兴趣的物体，有新招了！
来自人大高瓴GeWu-Lab、北邮、上海AI Lab等机构的研究人员提出Ref-AVS（Refer and Segment Objects in Audio-Visual Scenes，视听场景下的指代分割），让AI能看、会听，更懂真实物理世界。
相关论文已入选顶会ECCV2024。
举个例子，在下面这张图中，机器如何准确定位真正在演奏乐器的人？
搞单打独斗肯定不行，但这正是已有研究正在做的。（各自从视觉、文本和音频线索的角度出发）
视频对象分割（VOS，Video Object Segmentation）：通常以第一帧中的对象掩码作为参考，指导后续帧中特定对象的分割。（严重依赖于第一帧的精确标注）
视频对象参考分割（Ref-VOS，Referring Video Object Segmentation）：基于自然语言描述分割视频中的物体，取代了VOS中的掩码标注。（虽然更易于访问，但能力有限）
视听分割（AVS，Audio-Visual Segmentation）：以音

原文链接：让AI更懂物理世界！人大北邮上海AI Lab等提出多模态分割新方法 | ECCV2024