大模型都会标注图像了，简单对话即可！来自清华&NUS

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：大模型都会标注图像了，简单对话即可！来自清华&NUS
关键字：模型,位置,能力,数据,任务
文章来源：量子位
内容字数：4921字

内容摘要：

张傲投稿量子位 | 公众号 QbitAI多模态大模型集成了检测分割模块后，抠图变得更简单了！
只需用自然语言描述需求，模型就能分分钟标注出要寻找的物体，并做出文字解释。
在其背后提供支持的，是新加坡国立大学NExT++实验室与清华刘知远团队一同打造的全新多模态大模型。
随着GPT-4v的登场，多模态领域涌现出一大批新模型，如LLaVA、BLIP-2等等。
为了进一步扩展多模态大模型的区域理解能力，研究团队打造了一个可以同时进行对话和检测、分割的多模态模型NExT-Chat。
NExT-Chat的最大亮点，是在多模态模型中引入位置输入和输出的能力。
其中位置输入能力指的是根据指定的区域回答问题（下方左图）；位置输出能力指的则是定位对话中提及的物体（下方右图）：
即使是复杂的定位问题，也能迎刃而解：
除了物体定位，NExT-Chat还可以对图片或其中的某个部分进行描述：
分析完图像的内容之后，NExT-Chat可以利用得到的信息进行推理：
为了准确评估NExT-Chat的表现，研究团队在多个任务数据集上进行了测试。
在多个数据集上取得SOTA作者首先展示了NExT-Chat在指代表达式分

原文链接：大模型都会标注图像了，简单对话即可！来自清华&NUS