北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

AIGC动态欢迎阅读

原标题：北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024
关键字：类别,提示,人物,特征,模型
文章来源：量子位
内容字数：0字

内容摘要：

北京大学王选计算机研究所雷廷投稿量子位 | 公众号 QbitAI只用提示词，多模态大模型就能更懂场景中的人物关系了。
北京大学最新提出多模态提示学习（Conditional Multi-Modal Prompt, CMMP）方法，利用提示词工程技术教会多模态大模型理解区域级的人物交互关系。
在这个过程中，最难的部分在于教会模型识别未见过的人物交互类型。
要知道，大多数现有研究都集中在封闭环境，一旦变成更接近现实的开放环境，模型就懵逼了！
比如下图，先前的检测器在平衡已见和未见类别时遇到了困难，导致调和平均值较低，并且在未见类别上的表现较差。
相比之下，CMMP方法有效解决了这一平衡问题，大幅提升了性能，并为未见类别建立了新的最佳性能。
至于CMMP方法如何解决未见类别，一句话：
在特征提取过程中使用视觉空间线索，帮助识别未见的人物-物体交互概念，并通过条件提示学习提高对未见类别的泛化能力。
总之，CMMP方法提供了一种新的范式，可以微调多模态大模型，使其具备泛化的区域级人物交互关系检测能力。
以上研究来自北大王选计算机技术研究所，相关论文已被顶会ECCV 2024接收。
零样本人物交

原文链接：北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024