中科大等意外发现：大模型不看图也能正确回答视觉问题！

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：中科大等意外发现：大模型不看图也能正确回答视觉问题！
关键字：模型,语言,样本,问题,基准
文章来源：量子位
内容字数：4717字

内容摘要：

陈林投稿凹非寺量子位 | 公众号 QbitAI大模型不看图，竟也能正确回答视觉问题？！
中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。
他们首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型，不管是闭源还是开源，语言模型还是多模态，竟然只根据在多模态基准MMMU测试中的问题和选项文本，就能获得不错的成绩。
△蓝色表示能看到图的LVLMs，橘色和绿色分别表示只接收问题和选项文本的LLMs和LVLMs（LLM：大语言模型；LVLMs：多模态大模型）
不知道的还以为是大模型的隐藏技能被发现了。
有网友发出灵魂拷问：我们评估多模态模型的方确吗？
这一结果也激起了研究者们的好奇，于是他们决定对此展开进一步探究。
大模型隐藏技能被发现？针对现有的评估样本和评估过程，研究人员认为造成这种现象的两个主要问题。
第一，一些多模态评估样本缺少对视觉内容的依赖性。
这种问题反映了现有的benchmark中的不合理之处。这个问题包含了两种情况：
一种是有些评估样本的答案可以被蕴含在了题目和选项中从

原文链接：中科大等意外发现：大模型不看图也能正确回答视觉问题！