AIGC动态欢迎阅读
原标题:首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型
关键字:位置,模型,能力,任务,数据
文章来源:新智元
内容字数:10711字
内容摘要:
新智元报道编辑:LRS 好困
【新智元导读】研究人员提出了一个全新的位置建模方式pix2emb,可以在多模态对话模型中指定位置输入来回答问题。随着ChatGPT的爆红,多模态领域也涌现出一大批可以处理多种模态输入的对话模型,如LLaVA, BLIP-2等等。
为了进一步扩展多模态大模型的区域理解能力,近期新加坡国立大学NExT++实验室和清华大学的研究人员联手打造了一个可以同时进行对话和检测、分割的多模态模型NExT-Chat。作者:张傲,姚远,吉炜,刘知远,Chua Tat-Seng
多模态对话模型Demo:https://next-chatv.github.io/
论文:https://arxiv.org/pdf/2311.04498.pdf
代码:https://github.com/NExT-ChatV/NExT-Chat文章探索了如何在多模态模型中引入位置输入和输出的能力。
其中,位置输入能力指的是根据指定的区域回答问题,比如图1中的左图。
而位置输出能力指的是定位对话中提及的物体,如图1右图的小熊定位。图1:位置输入和输出示例
现有的方法主要通过pix2seq的方式进行L
原文链接:首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...