GPT-4结合SAM2：免训练多模态分割的全新解决方案！| 已开源

AIGC动态欢迎阅读

原标题：GPT-4结合SAM2：免训练多模态分割的全新解决方案！| 已开源
关键字：关键,对象,方法,音频,类别
文章来源：量子位
内容字数：0字

内容摘要：

北京航空航天大学李红羽投稿凹非寺量子位 | 公众号 QbitAI免训练多模态分割领域有了新突破！
中科院信工所、北航、合工大、美团等单位联合提出了一种名为AL-Ref-SAM 2的方法。
这种方法利用GPT-4和SAM-2来统一多模态分割，让系统在免训练的情况下，也能拥有不亚于全监督微调的性能！
≥ 全监督方法多模态分割主要有两种方法：一种是依据文字描述找到视频中特定对象的分割方法（RVOS），另一种是通过声音识别视频中发声对象的方法（AVS）。
免训练的多模态视频指代分割虽然在数据和训练成本上有较大优势，却由于缺乏在特定任务数据上针对性的模型参数调整，导致性能与全监督方法有较大差距。
而研究团队要解决的就是这个问题。
实验中，他们对多个RVOS基准数据集进行了广泛验证，包括Ref-YouTube-VOS、Ref-DAVIS17和MeViS，同时在AVSBench的多个子集上也进行了测试。
最后的实验结果显示，AL-Ref-SAL 2在这些数据集上的表现不仅优于其他无需训练和弱监督的方法，并且甚至在一定情况下，系统的性能可以与全监督方法相媲美。
特别是在Ref-YouTube-V

原文链接：GPT-4结合SAM2：免训练多模态分割的全新解决方案！| 已开源