首创pix2emb范式！NUS清华联合发布NExT-Chat：对话/检测/分割全能多模态大模型

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：首创pix2emb范式！NUS清华联合发布NExT-Chat：对话/检测/分割全能多模态大模型
关键字：位置,模型,能力,任务,数据
文章来源：新智元
内容字数：10711字

内容摘要：

新智元报道编辑：LRS 好困
【新智元导读】研究人员提出了一个全新的位置建模方式pix2emb，可以在多模态对话模型中指定位置输入来回答问题。随着ChatGPT的爆红，多模态领域也涌现出一大批可以处理多种模态输入的对话模型，如LLaVA, BLIP-2等等。
为了进一步扩展多模态大模型的区域理解能力，近期新加坡国立大学NExT++实验室和清华大学的研究人员联手打造了一个可以同时进行对话和检测、分割的多模态模型NExT-Chat。作者：张傲，姚远，吉炜，刘知远，Chua Tat-Seng
多模态对话模型Demo：https://next-chatv.github.io/
论文：https://arxiv.org/pdf/2311.04498.pdf
代码：https://github.com/NExT-ChatV/NExT-Chat文章探索了如何在多模态模型中引入位置输入和输出的能力。
其中，位置输入能力指的是根据指定的区域回答问题，比如图1中的左图。
而位置输出能力指的是定位对话中提及的物体，如图1右图的小熊定位。图1：位置输入和输出示例
现有的方法主要通过pix2seq的方式进行L

原文链接：首创pix2emb范式！NUS清华联合发布NExT-Chat：对话/检测/分割全能多模态大模型