GPT-4V惨败！CV大神谢赛宁新作：V*重磅「视觉搜索」算法让LLM理解力逼近人类

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：GPT-4V惨败！CV大神谢赛宁新作：V*重磅「视觉搜索」算法让LLM理解力逼近人类
关键字：视觉,模型,图像,研究人员,人类
文章来源：新智元
内容字数：5297字

内容摘要：

新智元报道编辑：桃子
【新智元导读】多模态大模型GPT-4V也会「有眼无珠」。UC San Diego纽约大学研究人员提出全新V*视觉搜索算法逆转LLM弱视觉宿命。Sam Altman最近在世界经济论坛上发言，称达到人类级别的AI很快就会降临。
但是，正如LeCun一直以来所言，如今的AI连猫狗都不如。现在看来的确如此。
GPT-4V、LLaVA等多模态模型图像理解力足以让人惊叹。但是，它们并非真的能够做的面面俱到。
CV大神谢赛宁称有一个问题让自己彻夜难眠——
不论分辨率或场景复杂程度如何，冻结的视觉编码器通常只能「提取一次」全局图像token。
举个栗子，一张杂乱的桌面上放了一个「星巴克」陶瓷杯，而且logo图案仅漏出一半的情况下。
对此，GPT-4V却无确识别出来，还产生了幻觉。
再比如，图片中小孩的鞋子是什么颜色这样直观的问题。
GPT-4V给出了「白色」的答案。
为了解决这个LLM图像理解的隐疾，「视觉搜索」这一关键方法能够为大模型提供视觉信息。
对此，来自UC San Diego和纽约大学的研究人员提出了V*——引导视觉搜索作为多模态LLM的核心机制。
论文地址：ht

原文链接：GPT-4V惨败！CV大神谢赛宁新作：V*重磅「视觉搜索」算法让LLM理解力逼近人类