谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA
关键字：视频,模型,编码器,文本,语义
文章来源：新智元
内容字数：5785字

内容摘要：

新智元报道编辑：桃子
【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism，在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练，性能刷新30项SOTA。AI视频模型Sora爆火之后，Meta、谷歌等大厂纷纷下场做研究，追赶OpenAI的步伐。
最近，来自谷歌团队的研究人员提出了一种通用视频编码器——VideoPrism。
它能够通过单一冻结模型，处理各种视频理解任务。
论文地址：https://arxiv.org/pdf/2402.13217.pdf
比如，VideoPrism能够将下面视频中吹蜡烛的人分类、定位出来。
视频-文本检索，根据文本内容，可以检索出视频中相应的内容。
再比如，描述下面视频——一个小女孩正在玩积木。
还可以进行QA问答。
– 她放在绿色积木块上方积木的是什么颜色？
– 紫色。
研究人员在一个异构语料库对VideoPrism进行了预训练，包含3600万高质量视频字幕对和5.82亿个视频剪辑，并带有噪声并行文本（如ASR转录文本）。
值得一提的是，VideoPrism在33项视频理解基准测试中，刷新了30项SOTA。
通用视觉编码

原文链接：谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA