这届出题太难了!新基准让多模态模型集体自闭,GPT-4o都是零分

100题,每道都是送命题。

这届出题太难了!新基准让多模态模型集体自闭,GPT-4o都是零分

原标题:这届出题太难了!新基准让多模态模型集体自闭,GPT-4o都是零分
文章来源:机器之心
内容字数:5944字

ZeroBench:颠覆大模型视觉理解能力的全新基准

近日,一个名为ZeroBench的视觉基准测试横空出世,挑战了包括GPT-4o和Gemini 2 Flash在内的20多个顶尖大型多模态模型(LMM),并使其全部获得零分。这引发了业界对现有大模型视觉理解能力的重新思考。

1. ZeroBench的挑战性问题

ZeroBench包含100个手工定制的极具挑战性的问题,这些问题并非简单的图像识别,而是需要模型进行多步骤推理、复杂的视觉理解和跨领域的知识运用。例如:

  1. 从一张反光模糊的菜单中,计算点单所有菜品的总价。
  2. 根据图片计算不同重量和颜色的哑铃的总重量,并进行分类统计。
  3. 根据图片中的线索,推理出一个6位数的保险箱密码。
  4. 计算图片中朝南的鹅占总数的百分比,需要考虑方位、季节等因素。
  5. 根据一个由赛艇队员装备制成的特殊时钟,解答一系列涉及时间、空间和几何变换的问题。

这些问题不仅考验模型的视觉识别能力,还要求其具备强大的推理能力、知识储备和对复杂场景的理解。

2. ZeroBench的构建过程

ZeroBench的100个问题由20多位专家手工打造,并经过严格的筛选过程。为了保证难度,研究团队使用了最新的模型进行“试水”,不断调整问题的难度,直到达到“难度适中”的标准。筛选流程包括反馈、初步评估、审查和对抗过滤四个步骤,确保问题的挑战性和多样性。

3. 评估结果与分析

在ZeroBench上,所有参与评估的20个LMM均表现不佳,平均得分均为0%。即使是表现最好的Gemini 2 Flash Thinking,其正确率也仅为7%。研究人员发现,模型在视觉解读方面存在诸多错误,例如错误计数、忽略细节、空间关系理解困难等。

4. ZeroBench的意义

ZeroBench的出现,标志着对大模型视觉理解能力评估进入了一个新的阶段。它打破了现有基准测试的局限性,为更准确地衡量大模型的真实视觉理解能力提供了新的标准,也为大模型未来的发展方向指明了方向。

ZeroBench项目主页:https://zerobench.github.io/

论文地址:https://arxiv.org/pdf/2502.09696


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...