北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

AIGC动态3年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

文章来源：量子位

内容字数：3357字

内容摘要：梦晨发自凹非寺量子位 | 公众号 QbitAIAI能理解搞笑视频笑点在哪里了。AI回答：这个视频之所以搞笑，在于一个小宝宝正坐在床上努力读书，但他显然还不会真正读书。他只是不停地指着书页上的各处，而摄影者则在背后笑他。小宝宝的这种尝试很有趣，因为他在尝试阅读一本对他而言过大的书，也看不懂里面的文字。北大等团队开源视觉语言大模型Video-LLaVA，将图像和视频表示对齐到统一的视觉特征空间，在13个图片和视频基准上达到先进的性能。值得注意的是，Video-LLaVA在训练过程中没有使用成对的视频和图片数据，但在训练后，LLM令人惊讶地展现出同时理解图片和视频的能力。如下图所示，Video-LLaVA成功地识别出女神像的图片是近景且细腻的，而视频描述了女神像的多个角度，表明它们来自同一个地方。在投影之前对齐图像和视频表示这项工作具体贡献如下：Video-LLaVA解决了在视觉-语…

原文链接：点此阅读原文：北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源