北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

AIGC动态10个月前发布 量子位
25 0 0

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

AIGC动态欢迎阅读

原标题:北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

关键字:报告,视觉,视频,编码器,表示

文章来源:量子位

内容字数:3357字

内容摘要:梦晨 发自 凹非寺量子位 | 公众号 QbitAIAI能理解搞笑视频笑点在哪里了。AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真正读书。他只是不停地指着书页上的各处,而摄影者则在背后笑他。小宝宝的这种尝试很有趣,因为他在尝试阅读一本对他而言过大的书,也看不懂里面的文字。北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。值得注意的是,Video-LLaVA在训练过程中没有使用成对的视频和图片数据,但在训练后,LLM令人惊讶地展现出同时理解图片和视频的能力。如下图所示,Video-LLaVA成功地识别出自由女神像的图片是近景且细腻的,而视频描述了自由女神像的多个角度,表明它们来自同一个地方。在投影之前对齐图像和视频表示这项工作具体贡献如下:Video-LLaVA解决了在视觉-语…

原文链接:点此阅读原文:北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...