AIGC动态欢迎阅读
原标题:北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源
文章来源:量子位
内容字数:3357字
内容摘要:梦晨 发自 凹非寺量子位 | 公众号 QbitAIAI能理解搞笑视频笑点在哪里了。AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真正读书。他只是不停地指着书页上的各处,而摄影者则在背后笑他。小宝宝的这种尝试很有趣,因为他在尝试阅读一本对他而言过大的书,也看不懂里面的文字。北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。值得注意的是,Video-LLaVA在训练过程中没有使用成对的视频和图片数据,但在训练后,LLM令人惊讶地展现出同时理解图片和视频的能力。如下图所示,Video-LLaVA成功地识别出女神像的图片是近景且细腻的,而视频描述了女神像的多个角度,表明它们来自同一个地方。在投影之前对齐图像和视频表示这项工作具体贡献如下:Video-LLaVA解决了在视觉-语…
原文链接:点此阅读原文:北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...