7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力
关键字：模型,视觉,任务,数据,文本
文章来源：新智元
内容字数：9253字

内容摘要：

新智元报道编辑：LRS 好困
【新智元导读】研究人员证实了Visual Graph在图推理中的作用，以及其可以和文本模态相互增强。图神经网络（GNNs）擅长利用图的结构信息进行推理，但它们通常需要特定于领域的调优才能达到峰值性能，这阻碍了它们在不同任务之间的泛化性。
相比之下，基于大型语言模型（LLM）的图推理具有更强的跨任务和泛化能力，但它们在特定任务上的性能往往逊色于专用的图神经网络模型。
无论是以图神经网络为代表的传统图推理还是新兴的基于大型语言模型的图推理，目前图推理相关工作都忽视了视觉模态的图信息。
然而，人类会通过视觉特征高效和准确地完成图任务，例如判断图中是否存在环。
因此，探究视觉形态的图信息在图推理中的作用具有重要意义。
更具体地，将图（Graph）绘制为图片（Image），是否能赋予模型特殊的推理能力呢？这些图片（称为视觉图 Visual Graph）是否能增强现有的基于其他模态的图推理模型呢？
为了回答这些问题，来自香港科技大学和南方科技大学的研究团队构建了首个包含视觉图的推理问答数据集GITQA，并在GPT-4 turbo，GPT-4V等开源模型和Vicuna

原文链接：7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力