AIGC动态欢迎阅读
文章来源:夕小瑶科技说
内容字数:11469字
内容摘要:夕小瑶科技说 原创作者 | 智商掉了一地、Python当前,多模态大型模型(Multi-modal Large Language Model, MLLM)在视觉问答(VQA)领域展现了卓越的能力。然而,真正的挑战在于知识密集型 VQA 任务,这要求不仅要识别视觉元素,还需要结合知识库来深入理解视觉信息。本文对 MLLM,尤其是近期提出的 GPT-4V,从理解、推理和解释等方面进行了综合评估。结果表明,当前开源 MLLM 的视觉理解能力在很大程度上落后于 GPT-4V,尤其是上下文学习能力需要进一步提升。并且,在广泛的常识类别中,GPT-4V 的问答水平也是明显领先的。▲图1 知识密集型视觉问答(VQA)任务的评估框架如图 1 所示,该框架从三个维度进行了深入评估:常识知识:评估模型如何理解视觉线索并与常识知识联系;精细化的世界知识:测试模型从图像中推理出特定专业领域知识的能力;具有决策基础…
原文链接:点此阅读原文:新王加冕,GPT-4V 屠榜视觉问答
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...