准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源

AIGC动态3年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源
关键字：图像,序列,幻觉,行为,对象
文章来源：新智元
内容字数：9083字

内容摘要：

新智元报道编辑：LRS
【新智元导读】马里兰大合北卡教堂山发布首个专为多模态大语言模型（MLLM）设计的图像序列的基准测试Mementos，涵盖了真实世界图像序列、机器人图像序列，以及动漫图像序列，用4761个多样化图像序列的集合，全面测试MLLM对碎散图像序列的推理能力！OpenAI的GPT-4V和谷歌最新的Gemini多模态大语言模型一经推出就得到业界和学界的热切关注: 一系列工作都从多角度展示了这些多模态大语言模型对视频的理解能力。人们似乎相信我们离通用人工智能artificial general intelligence (AGI) 又迈进了一大步！
可如果告诉你，GPT-4V连漫画中的人物行为都会看错, 试问：元芳,你怎么看？
我们来看看这幅迷你漫画系列:如果让生物界最高智能体——人类，也就是读者朋友来描述, 你大概率会说:
那我们来看看当机器界最高智能体——也就是GPT-4V来看这幅迷你漫画系列的时候，它会这么描述呢?
GPT-4V作为公认的站在鄙视链顶端的机器智能体，居然公然睁眼说瞎话。
还有更离谱的是，就算给GPT-4V实际的生活图像片段，它也会把一个人上楼梯过程

原文链接：准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源