一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录
关键字：视频,模型,视觉,数据,能力
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：编辑部 HYZ
【新智元导读】长视频理解迎来新纪元！智源联手国内多所顶尖高校，推出了超长视频理解大模型Video-XL。仅用一张80G显卡处理小时级视频，未来AI看懂电影再也不是难事。长视频理解是多模态大模型的核心能力之一，也是迈向通用人工智能（AGI）的关键一步。然而，现有的多模态大模型在处理10分钟以上的超长视频时，仍然面临性能差和效率低的双重挑战。
对此，智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校，推出了小时级的超长视频理解大模型Video-XL。
Video-XL借助语言模型（LLM）的原生能力对长视觉序列进行压缩，不仅保留了短视频理解的能力，而且在长视频理解上展现了出色的泛化能力。
Video-XL相较于同等参数规模的模型，在多个主流长视频理解基准评测的多项任务中排名第一。
此外，Video-XL在效率与性能之间实现了良好的平衡，仅需一块80G显存的显卡即可处理2048帧输入（对小时级长度视频采样），并在视频「大海捞针」任务中取得了接近95%的准确率。
仅需几秒钟，VideoXL便可以准确检索长视频中植入的广告内容（https

原文链接：一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录