多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构建多模态基准

AIGC动态欢迎阅读

原标题：多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构建多模态基准
关键字：模型,数据,图像,视觉,代码
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：乔杨
【新智元导读】LLM的数学推理能力缺陷得到了很多研究的关注，但最近浙大、中科院等机构的学者们提出，先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。
语言模型已经可以写诗写小说了，但是依旧算不对9.11和9.9比大小的问题。
同样的问题也出现在视觉模型中，它们能完美理解自然景色或人物照片，却无法处理各种图表任务，甚至看表读时间都是难题。
如果要将AI系统用在更多专业领域，这些能力缺陷就显得极为突出。
最近，浙江大学、中科院软件研究所、上海科技大学等机构就联合提出了一种新的多模态基准，专门衡量模型对抽象图像的理解能力和视觉推理能力。
论文地址：https://arxiv.org/pdf/2407.07053
数据集共包含11,193个带有相关问题的抽象图像，涵盖了仪表板、路线图、图表、表格、流程图、关系图、视觉谜题和2D平面图等8大类别，此外还有额外的62,476条数据用于微调模型。
经过测试，人类在该基准上可以达到至少82.1%的准确率，

原文链接：多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构建多模态基准