让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8%

AIGC动态2年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8%

文章来源：量子位

内容字数：6742字

内容摘要：转载自沁园夏量子位 | 公众号 QbitAI大模型“识图”能力都这么强了，为啥还老找错东西？例如，把长得不太像的蝙蝠和拍子搞混，又或是认不出一些数据集中的稀有鱼类……这是因为，我们让大模型“找东西”时，往往输入的是文本。如果描述有歧义或太偏门，像是“bat”（蝙蝠还是拍子？）或“魔鳉”（Cyprinodon diabolis），AI就会大为困惑。这就导致用大模型做目标检测、尤其是开放世界（未知场…

原文链接：点此阅读原文：让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8%