这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于「视力」测试

这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于「视力」测试

AIGC动态欢迎阅读

原标题:这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于「视力」测试
关键字:模型,准确率,多少钱,解读,测试
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
机器之心编辑部四大 VLM,竟都在盲人摸象?
让现在最火的 SOTA 模型们(GPT-4o,Gemini-1.5,Sonnet-3,Sonnet-3.5)数一数两条线有几个交点,他们表现会比人类好吗?
答案很可能是否定的。
自 GPT-4V 推出以来,视觉语言模型 (VLMs) 让大模型的智能程度朝着我们想象中的人工智能水平跃升了一大步。
VLMs 既能看懂画面,又能用语言来描述看到的东西,并基于这些理解来执行复杂的任务。比如,给 VLM 模型发去一张餐桌的图片,再发一张菜单的图片,它就能从两张图中分别提取啤酒瓶的数量和菜单上的单价,算出这顿饭买啤酒花了多少钱。
VLMs 的进步如此之快,以至于让模型找出这张图中有没有一些不合常理的「抽象元素」,例如,让模型鉴定图中有没有一个人正在飞驰的出租车上熨衣服,成为了一种通行的测评方式。然而,目前的基准测试集并不能很好地评估 VLMs 的视觉能力。以 MMMU 为例,其中有 42.9% 的问题不需要看图,就能解决,也就是说,许多答案可以仅通过文本问题和选项推断出来。其次,现在 VLM 展示出的能力,很大程度上是「背记」大规模互联网


原文链接:这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于「视力」测试

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...