CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院
关键字：解读,文本,图像,词汇量,模型
文章来源：量子位
内容字数：0字

内容摘要：

K君投稿量子位 | 公众号 QbitAI循环调用CLIP，无需额外训练就有效分割无数概念。
包括电影动漫人物，地标，品牌，和普通类别在内的任意短语。
牛津大学与谷歌研究院联合团队的这项新成果，已被CVPR 2024接收，并开源了代码。
团队提出名为CLIP as RNN（简称CaR）的新技术，解决了开放词汇量图像分割领域中的几个关键问题：
无需训练数据：传统方法需要大量的掩膜注释或图像-文本数据集进行微调，CaR技术则无需任何额外的训练数据即可工作。
开放词汇量的限制：预训练的视觉-语言模型（VLMs）在经过微调后，其处理开放词汇量的能力受到限制。CaR技术保留了VLMs的广泛词汇空间。
对非图像中概念的文本查询处理：在没有微调的情况下，VLMs难以对图像中不存在的概念进行准确分割，CaR通过迭代过程逐步优化，提高了分割质量。
受RNN启发，循环调用CLIP要理解CaR的原理，需要先回顾一下循环神经网络RNN。
RNN引入了隐状态(hidden state)的概念，就像是一个”记忆体”，存储了过去时间步的信息。而且每个时间步共享同一组权重，可以很好地建模序列数据。
受RNN启发，Ca

原文链接：CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院