北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

AIGC动态3年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

文章来源：量子位

内容字数：4787字

内容摘要：AI4Happiness投稿量子位 | 公众号 QbitAI北大联合腾讯打造了一个多模态15边形战士！以语言为中心，“拳打脚踢”视频、音频、深度、红外理解等各模态。具体来说，研究人员提出了一个叫做LanguageBind的多模态预训练框架。用语言作为与其它模态之间的纽带，冻结语言编码器，然后用对比学习方法，将各个模态映射到一个共享的特征空间，实现多模态数据的语义对齐。使用这种方法，模型在5个数据集…

原文链接：点此阅读原文：北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind