MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答
关键字：模型,问题,视觉,性能,基准
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRS
【新智元导读】MMMU-Pro通过三步构建过程（筛选问题、增加候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提升，例如GPT-4o在大学水平上的多学科多模态理解和推理（MMMU）基准测试中取得了69.1%的准确率。
不过，基准测试结果是否真的能反映模型对多样化主题的深入理解，仍然有争议，或者说模型是否只是利用了统计模式，而非依靠理解和推理的情况下就能得出正确答案？
为了解决这一问题并推动多模态AI评估的边界，MMMU团队对MMMU基准在健壮性和问题难度上进行提升，新基准MMMU-Pro能够更准确、更严格地评估模型在广泛的学科领域内真正的多模态理解和推理能力。论文链接：https://arxiv.org/abs/2409.02813
MMMU-Pro的构建过程包括三步：
1. 过滤掉纯文本模型可回答的问题；
2. 由人类专家将候选选项增加到 10 个，以减少模型蒙对答案的概率；
3. 引入纯视觉输

原文链接：MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答