这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于「视力」测试

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于「视力」测试
关键字：模型,准确率,多少钱,解读,测试
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
机器之心编辑部四大 VLM，竟都在盲人摸象？
让现在最火的 SOTA 模型们（GPT-4o，Gemini-1.5，Sonnet-3，Sonnet-3.5）数一数两条线有几个交点，他们表现会比人类好吗？
答案很可能是否定的。
自 GPT-4V 推出以来，视觉语言模型 (VLMs) 让大模型的智能程度朝着我们想象中的人工智能水平跃升了一大步。
VLMs 既能看懂画面，又能用语言来描述看到的东西，并基于这些理解来执行复杂的任务。比如，给 VLM 模型发去一张餐桌的图片，再发一张菜单的图片，它就能从两张图中分别提取啤酒瓶的数量和菜单上的单价，算出这顿饭买啤酒花了多少钱。
VLMs 的进步如此之快，以至于让模型找出这张图中有没有一些不合常理的「抽象元素」，例如，让模型鉴定图中有没有一个人正在飞驰的出租车上熨衣服，成为了一种通行的测评方式。然而，目前的基准测试集并不能很好地评估 VLMs 的视觉能力。以 MMMU 为例，其中有 42.9% 的问题不需要看图，就能解决，也就是说，许多答案可以仅通过文本问题和选项推断出来。其次，现在 VLM 展示出的能力，很大程度上是「背记」大规模互联网

原文链接：这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于「视力」测试