一块显卡理解一部电影，最新超长视频理解大模型出炉！“大海捞针”准确率近95%，代码已开源

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：一块显卡理解一部电影，最新超长视频理解大模型出炉！“大海捞针”准确率近95%，代码已开源
关键字：视频,模型,视觉,数据,能力
文章来源：量子位
内容字数：0字

内容摘要：

允中发自凹非寺量子位 | 公众号 QbitAI仅需1块80G显卡，大模型理解小时级超长视频。
智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校带来最新成果超长视频理解大模型Video-XL。
它借助语言模型（LLM）的原生能力对长视觉序列进行压缩，不仅保留了短视频理解的能力，而且在长视频理解上展现了出色的泛化能力。
相较于同等参数规模的模型，Video-XL在多个主流长视频理解基准评测的多项任务中排名第一。
而且在效率与性能之间实现了良好的平衡，仅需一块80G显存的显卡即可处理2048帧输入（对小时级长度视频采样），并在视频“海中捞针”任务中取得了接近95%的准确率。
△图一：不同长视频模型在单块80G显卡上支持的最大帧数及在Video-MME上的表现要知道，长视频理解是多模态大模型的核心能力之一，也是迈向通用人工智能（AGI）的关键一步。
然而，现有的多模态大模型在处理10分钟以上的超长视频时，仍然面临性能差和效率低的双重挑战。
Video-XL正是为此而来，模型代码均已开源。
仅需几秒钟，VideoXL便可以准确检索长视频中植入的广告内容（https: