北大王选所:让多模态大模型更懂人类在做什么|ECCV 2024

AIGC动态4个月前发布 量子位
7 0 0

北大王选所:让多模态大模型更懂人类在做什么|ECCV 2024

AIGC动态欢迎阅读

原标题:北大王选所:让多模态大模型更懂人类在做什么|ECCV 2024
关键字:类别,提示,人物,特征,模型
文章来源:量子位
内容字数:0字

内容摘要:


北京大学王选计算机研究所雷廷 投稿量子位 | 公众号 QbitAI只用提示词,多模态大模型就能更懂场景中的人物关系了。
北京大学最新提出多模态提示学习(Conditional Multi-Modal Prompt, CMMP)方法,利用提示词工程技术教会多模态大模型理解区域级的人物交互关系。
在这个过程中,最难的部分在于教会模型识别未见过的人物交互类型。
要知道,大多数现有研究都集中在封闭环境,一旦变成更接近现实的开放环境,模型就懵逼了!
比如下图,先前的检测器在平衡已见和未见类别时遇到了困难,导致调和平均值较低,并且在未见类别上的表现较差。
相比之下,CMMP方法有效解决了这一平衡问题,大幅提升了性能,并为未见类别建立了新的最佳性能。
至于CMMP方法如何解决未见类别,一句话:
在特征提取过程中使用视觉空间线索,帮助识别未见的人物-物体交互概念,并通过条件提示学习提高对未见类别的泛化能力。
总之,CMMP方法提供了一种新的范式,可以微调多模态大模型,使其具备泛化的区域级人物交互关系检测能力。
以上研究来自北大王选计算机技术研究所,相关论文已被顶会ECCV 2024接收。
零样本人物交


原文链接:北大王选所:让多模态大模型更懂人类在做什么|ECCV 2024

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...