AIGC动态欢迎阅读
原标题:CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院
关键字:解读,文本,图像,词汇量,模型
文章来源:量子位
内容字数:0字
内容摘要:
K君 投稿量子位 | 公众号 QbitAI循环调用CLIP,无需额外训练就有效分割无数概念。
包括电影动漫人物,地标,品牌,和普通类别在内的任意短语。
牛津大学与谷歌研究院联合团队的这项新成果,已被CVPR 2024接收,并开源了代码。
团队提出名为CLIP as RNN(简称CaR)的新技术,解决了开放词汇量图像分割领域中的几个关键问题:
无需训练数据:传统方法需要大量的掩膜注释或图像-文本数据集进行微调,CaR技术则无需任何额外的训练数据即可工作。
开放词汇量的限制:预训练的视觉-语言模型(VLMs)在经过微调后,其处理开放词汇量的能力受到限制。CaR技术保留了VLMs的广泛词汇空间。
对非图像中概念的文本查询处理:在没有微调的情况下,VLMs难以对图像中不存在的概念进行准确分割,CaR通过迭代过程逐步优化,提高了分割质量。
受RNN启发,循环调用CLIP要理解CaR的原理,需要先回顾一下循环神经网络RNN。
RNN引入了隐状态(hidden state)的概念,就像是一个”记忆体”,存储了过去时间步的信息。而且每个时间步共享同一组权重,可以很好地建模序列数据。
受RNN启发,Ca
原文链接:CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...