还不如人类五岁小孩，难度为零的视觉测试，GPT-4o、Claude 3.5 Sonnet却挑战失败了

AIGC动态1年前 (2024)发布大数据文摘

AIGC动态欢迎阅读

原标题：还不如人类五岁小孩，难度为零的视觉测试，GPT-4o、Claude 3.5 Sonnet却挑战失败了
关键字：模型,任务,数量,网格,视觉
文章来源：大数据文摘
内容字数：0字

内容摘要：

大数据文摘授权转载自学术头条
撰文：马雪薇
GPT-4o、Claude 3.5 Sonnet 等具有视觉能力的大语言模型（LLM），是否能像人类一样感知图像？最新研究表明，在一套人类非常容易完成的 7 项视觉任务（比如两个圆是否重叠、两条线是否相交等）中，Claude 3.5 Sonnet 等四种最先进的视觉语言模型（VLM）的平均准确率只有 56.2%。它们似乎并不是在真正地“看”，而是在做有根据的猜测。
相关研究论文以“Vision language models are blind”为题，已发表在预印本网站 arXiv 上。
然而，这是否意味着这些“视觉” AI 模型毫无用处？远非如此。VLM 在识别诸如人类行为和表情、日常物品和情境的照片等方面都表现了出很高的准确性。
正如论文作者之一 Anh Totti Nguyen 所说：“‘盲目’对人类来说就有多种不同的定义，目前还没有一个词可以描述 AI 对我们展示的图像的这种盲目性，也没有技术能够准确地可视化模型看到的东西。它们的行为是输入文本提示、输入图像和数十亿权重的复杂函数。”VLM 到底有多“瞎”？研究团队通过 7 项简单任务

原文链接：还不如人类五岁小孩，难度为零的视觉测试，GPT-4o、Claude 3.5 Sonnet却挑战失败了