AIGC动态欢迎阅读
原标题:谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA
关键字:视频,模型,编码器,文本,语义
文章来源:新智元
内容字数:5785字
内容摘要:
新智元报道编辑:桃子
【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷新30项SOTA。AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶OpenAI的步伐。
最近,来自谷歌团队的研究人员提出了一种通用视频编码器——VideoPrism。
它能够通过单一冻结模型,处理各种视频理解任务。
论文地址:https://arxiv.org/pdf/2402.13217.pdf
比如,VideoPrism能够将下面视频中吹蜡烛的人分类、定位出来。
视频-文本检索,根据文本内容,可以检索出视频中相应的内容。
再比如,描述下面视频——一个小女孩正在玩积木。
还可以进行QA问答。
– 她放在绿色积木块上方积木的是什么颜色?
– 紫色。
研究人员在一个异构语料库对VideoPrism进行了预训练,包含3600万高质量视频字幕对和5.82亿个视频剪辑,并带有噪声并行文本(如ASR转录文本)。
值得一提的是,VideoPrism在33项视频理解基准测试中,刷新了30项SOTA。
通用视觉编码
原文链接:谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...