新王加冕，GPT-4V 屠榜视觉问答

AIGC动态2年前 (2023)发布夕小瑶科技说

新王加冕，GPT-4V 屠榜视觉问答

AIGC动态欢迎阅读

原标题：新王加冕，GPT-4V 屠榜视觉问答

文章来源：夕小瑶科技说

内容字数：11469字

内容摘要：夕小瑶科技说原创作者 | 智商掉了一地、Python当前，多模态大型模型（Multi-modal Large Language Model, MLLM）在视觉问答（VQA）领域展现了卓越的能力。然而，真正的挑战在于知识密集型 VQA 任务，这要求不仅要识别视觉元素，还需要结合知识库来深入理解视觉信息。本文对 MLLM，尤其是近期提出的 GPT-4V，从理解、推理和解释等方面进行了综合评估。结果表明，当前开源 MLLM 的视觉理解能力在很大程度上落后于 GPT-4V，尤其是上下文学习能力需要进一步提升。并且，在广泛的常识类别中，GPT-4V 的问答水平也是明显领先的。▲图1 知识密集型视觉问答（VQA）任务的评估框架如图 1 所示，该框架从三个维度进行了深入评估：常识知识：评估模型如何理解视觉线索并与常识知识联系;精细化的世界知识：测试模型从图像中推理出特定专业领域知识的能力；具有决策基础…

原文链接：点此阅读原文：新王加冕，GPT-4V 屠榜视觉问答