新王加冕,GPT-4V 屠榜视觉问答

新王加冕,GPT-4V 屠榜视觉问答

AIGC动态欢迎阅读

原标题:新王加冕,GPT-4V 屠榜视觉问答

关键字:知识,视觉,能力,上下文,问题

文章来源:夕小瑶科技说

内容字数:11469字

内容摘要:夕小瑶科技说 原创作者 | 智商掉了一地、Python当前,多模态大型模型(Multi-modal Large Language Model, MLLM)在视觉问答(VQA)领域展现了卓越的能力。然而,真正的挑战在于知识密集型 VQA 任务,这要求不仅要识别视觉元素,还需要结合知识库来深入理解视觉信息。本文对 MLLM,尤其是近期提出的 GPT-4V,从理解、推理和解释等方面进行了综合评估。结果表明,当前开源 MLLM 的视觉理解能力在很大程度上落后于 GPT-4V,尤其是上下文学习能力需要进一步提升。并且,在广泛的常识类别中,GPT-4V 的问答水平也是明显领先的。▲图1 知识密集型视觉问答(VQA)任务的评估框架如图 1 所示,该框架从三个维度进行了深入评估:常识知识:评估模型如何理解视觉线索并与常识知识联系;精细化的世界知识:测试模型从图像中推理出特定专业领域知识的能力;具有决策基础…

原文链接:点此阅读原文:新王加冕,GPT-4V 屠榜视觉问答

联系作者

文章来源:夕小瑶科技说

作者微信:xixiaoyaoQAQ

作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...