AIGC动态欢迎阅读
原标题:大模型时代的蓝海任务,GPT4V准确率不足10%,港科大发布指代理解基准RefCOCO
关键字:模型,基准,实例,类别,子集
文章来源:夕小瑶科技说
内容字数:0字
内容摘要:
夕小瑶科技说 原创作者 | 谢年年谈到多模态大模型的应用场景,除了生成任务以外,应用最广泛的可能就是在图像和视频中进行目标检测。
目标检测要求从图像中识别并标注出所有感兴趣的对象,并给每个对象分配一个类别标签。典型的目标检测方法会生成边界框,标记出图像中每个目标的位置和类别,如人、车、动物等。
然而,今天我们要聊的并非仅限于对象类别的目标检测,而是一个更具挑战性的任务——Referring Expression Comprehension(REC),即指称表达理解。REC侧重于根据冗长且复杂的自然语言描述来精准定位并标记特定对象。
比如根据以下描述,标记图中的对象:
这款淡绿色的长方形橡皮上绘有一只熊,旁边用绿色写着“橡皮”字样。一层透明的带有图案的塑料覆盖物部分包裹着它。在图片的右下角,橡皮放在杂乱的桌子上,周围是各种各样的艺术材料和图纸。
REC更强调根据特定的自然语言描述定位和标记目标,适用于需要通过语言与视觉信息交互的场景,也是目前多模态大模型领域研究较少的任务。
现在常用的评估基准一般有三个:RefCOCO(2015年)、RefCOCO+(2016年)和RefCOCOg(20
原文链接:大模型时代的蓝海任务,GPT4V准确率不足10%,港科大发布指代理解基准RefCOCO
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189