AIGC动态欢迎阅读
原标题:GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类
关键字:视觉,模型,图像,研究人员,人类
文章来源:新智元
内容字数:5297字
内容摘要:
新智元报道编辑:桃子
【新智元导读】多模态大模型GPT-4V也会「有眼无珠」。UC San Diego纽约大学研究人员提出全新V*视觉搜索算法逆转LLM弱视觉宿命。Sam Altman最近在世界经济论坛上发言,称达到人类级别的AI很快就会降临。
但是,正如LeCun一直以来所言,如今的AI连猫狗都不如。现在看来的确如此。
GPT-4V、LLaVA等多模态模型图像理解力足以让人惊叹。但是,它们并非真的能够做的面面俱到。
CV大神谢赛宁称有一个问题让自己彻夜难眠——
不论分辨率或场景复杂程度如何,冻结的视觉编码器通常只能「提取一次」全局图像token。
举个栗子,一张杂乱的桌面上放了一个「星巴克」陶瓷杯,而且logo图案仅漏出一半的情况下。
对此,GPT-4V却无法正确识别出来,还产生了幻觉。
再比如,图片中小孩的鞋子是什么颜色这样直观的问题。
GPT-4V给出了「白色」的答案。
为了解决这个LLM图像理解的隐疾,「视觉搜索」这一关键方法能够为大模型提供视觉信息。
对此,来自UC San Diego和纽约大学的研究人员提出了V*——引导视觉搜索作为多模态LLM的核心机制。
论文地址:ht
原文链接:GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...