VLM集体「失明」？视力测试惨败，GPT-4o、Claude 3.5全都不及格

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：VLM集体「失明」？视力测试惨败，GPT-4o、Claude 3.5全都不及格
关键字：模型,任务,视觉,正方形,字母
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】视觉大语言模型在最基础的视觉任务上集体「翻车」，即便是简单的图形识别都能难倒一片，或许这些最先进的VLM还没有发展出真正的视觉能力？最新一轮的语言模型，如GPT-4o和Gemini 1.5 Pro，在发布时都被定义为「原生多模态」，能够理解图像、音频、文本等多种形式的输入。
这些多模态LLM在相关的介绍、营销，甚至是学术论文中，都使用了「视觉能力」（visual capability）、「视觉理解」（visual understanding）这样的表述。
这似乎是想表达，模型在某种意义上是可以看见并理解事物的，而且这种能力已经能与人类相匹配。
那么我们开一个脑洞：如果对视觉语言模型进行视力测试，它们会是标准视力5.2或是大近视眼，还是压根啥也看不见？
一项新研究表明，大语言模型实际上并没有像期望的拥有类人的视觉能力。事实是，它们根本就是「盲人」。
奥本大学和阿尔伯塔大学的研究人员在一系列非常简单的视觉任务上测试了4个当今最先进的多模态模型，发现结果并不如人意。
这些任务对人类来说极其简单，比如两个形状是否重叠、图片中有多少个五边形，或者单词中的哪

原文链接：VLM集体「失明」？视力测试惨败，GPT-4o、Claude 3.5全都不及格