一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录

一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录

AIGC动态欢迎阅读

原标题:一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录
关键字:视频,模型,视觉,数据,能力
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:编辑部 HYZ
【新智元导读】长视频理解迎来新纪元!智源联手国内多所顶尖高校,推出了超长视频理解大模型Video-XL。仅用一张80G显卡处理小时级视频,未来AI看懂电影再也不是难事。长视频理解是多模态大模型的核心能力之一,也是迈向通用人工智能(AGI)的关键一步。然而,现有的多模态大模型在处理10分钟以上的超长视频时,仍然面临性能差和效率低的双重挑战。
对此,智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校,推出了小时级的超长视频理解大模型Video-XL。
Video-XL借助语言模型(LLM)的原生能力对长视觉序列进行压缩,不仅保留了短视频理解的能力,而且在长视频理解上展现了出色的泛化能力。
Video-XL相较于同等参数规模的模型,在多个主流长视频理解基准评测的多项任务中排名第一。
此外,Video-XL在效率与性能之间实现了良好的平衡,仅需一块80G显存的显卡即可处理2048帧输入(对小时级长度视频采样),并在视频「大海捞针」任务中取得了接近95%的准确率。
仅需几秒钟,VideoXL便可以准确检索长视频中植入的广告内容(https


原文链接:一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...