大模型时代的蓝海任务，GPT4V准确率不足10%，港科大发布指代理解基准RefCOCO

AIGC动态1年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：大模型时代的蓝海任务，GPT4V准确率不足10%，港科大发布指代理解基准RefCOCO
关键字：模型,基准,实例,类别,子集
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | 谢年年谈到多模态大模型的应用场景，除了生成任务以外，应用最广泛的可能就是在图像和视频中进行目标检测。
目标检测要求从图像中识别并标注出所有感兴趣的对象，并给每个对象分配一个类别标签。典型的目标检测方生成边界框，标记出图像中每个目标的位置和类别，如人、车、动物等。
然而，今天我们要聊的并非仅限于对象类别的目标检测，而是一个更具挑战性的任务——Referring Expression Comprehension（REC），即指称表达理解。REC侧重于根据冗长且复杂的自然语言描述来精准定位并标记特定对象。
比如根据以下描述，标记图中的对象：
这款淡绿色的长方形橡皮上绘有一只熊，旁边用绿色写着“橡皮”字样。一层透明的带有图案的塑料覆盖物部分包裹着它。在图片的右下角，橡皮放在杂乱的桌子上，周围是各种各样的艺术材料和图纸。
REC更强调根据特定的自然语言描述定位和标记目标，适用于需要通过语言与视觉信息交互的场景，也是目前多模态大模型领域研究较少的任务。
现在常用的评估基准一般有三个：RefCOCO（2015年）、RefCOCO+（2016年）和RefCOCOg（20

原文链接：大模型时代的蓝海任务，GPT4V准确率不足10%，港科大发布指代理解基准RefCOCO

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文