准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源

AIGC动态10个月前发布 新智元
12 0 0

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源

AIGC动态欢迎阅读

原标题:准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源
关键字:图像,序列,幻觉,行为,对象
文章来源:新智元
内容字数:9083字

内容摘要:


新智元报道编辑:LRS
【新智元导读】马里兰大学联合北卡教堂山发布首个专为多模态大语言模型(MLLM)设计的图像序列的基准测试Mementos,涵盖了真实世界图像序列、机器人图像序列,以及动漫图像序列,用4761个多样化图像序列的集合,全面测试MLLM对碎散图像序列的推理能力!OpenAI的GPT-4V和谷歌最新的Gemini多模态大语言模型一经推出就得到业界和学界的热切关注: 一系列工作都从多角度展示了这些多模态大语言模型对视频的理解能力。人们似乎相信我们离通用人工智能artificial general intelligence (AGI) 又迈进了一大步!
可如果告诉你,GPT-4V连漫画中的人物行为都会看错, 试问:元芳,你怎么看?
我们来看看这幅迷你漫画系列:如果让生物界最高智能体——人类,也就是读者朋友来描述, 你大概率会说:
那我们来看看当机器界最高智能体——也就是GPT-4V来看这幅迷你漫画系列的时候,它会这么描述呢?
GPT-4V作为公认的站在鄙视链顶端的机器智能体,居然公然睁眼说瞎话。
还有更离谱的是,就算给GPT-4V实际的生活图像片段,它也会把一个人上楼梯过程


原文链接:准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...