大模型都会标注图像了,简单对话即可!来自清华&NUS

AIGC动态11个月前发布 量子位
12 0 0

大模型都会标注图像了,简单对话即可!来自清华&NUS

AIGC动态欢迎阅读

原标题:大模型都会标注图像了,简单对话即可!来自清华&NUS
关键字:模型,位置,能力,数据,任务
文章来源:量子位
内容字数:4921字

内容摘要:


张傲 投稿量子位 | 公众号 QbitAI多模态大模型集成了检测分割模块后,抠图变得更简单了!
只需用自然语言描述需求,模型就能分分钟标注出要寻找的物体,并做出文字解释。
在其背后提供支持的,是新加坡国立大学NExT++实验室与清华刘知远团队一同打造的全新多模态大模型。
随着GPT-4v的登场,多模态领域涌现出一大批新模型,如LLaVA、BLIP-2等等。
为了进一步扩展多模态大模型的区域理解能力,研究团队打造了一个可以同时进行对话和检测、分割的多模态模型NExT-Chat。
NExT-Chat的最大亮点,是在多模态模型中引入位置输入和输出的能力。
其中位置输入能力指的是根据指定的区域回答问题(下方左图);位置输出能力指的则是定位对话中提及的物体(下方右图):
即使是复杂的定位问题,也能迎刃而解:
除了物体定位,NExT-Chat还可以对图片或其中的某个部分进行描述:
分析完图像的内容之后,NExT-Chat可以利用得到的信息进行推理:
为了准确评估NExT-Chat的表现,研究团队在多个任务数据集上进行了测试。
在多个数据集上取得SOTA作者首先展示了NExT-Chat在指代表达式分


原文链接:大模型都会标注图像了,简单对话即可!来自清华&NUS

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...