Video-XL

AI工具1年前 (2024)发布 AI工具集

Video-XL是一款由北京智源人工智能研究院与上海交通大学、中国人民大学、中科院、北京邮电大学和北京大学的研究人员联合研发的超长视频理解模型，专为处理小时级别的视频内容而设计。其独特的视觉上下文潜在总结技术能够将复杂的视觉信息压缩为精简形式，从而提升处理效率并减少信息损失。在多项长视频理解基准测试中，Video-XL的表现尤为突出，准确率在VNBench测试中领先现有最佳技术近10%。在单个80GB GPU上处理2048帧视频时，准确率接近95%。Video-XL在效率与效果之间达成了良好的平衡，展现了在长视频特定任务中的广泛应用潜力，例如电影总结、监控异常检测和广告投放识别。

Video-XL是什么

Video-XL是一种专为小时级视频理解而研发的超长视觉理解模型，由北京智源人工智能研究院与多所知名高校和研究机构联合推出。通过视觉上下文潜在总结技术，Video-XL能够将大量视觉信息压缩为更为紧凑的形式，从而提升模型的处理效率，并减少信息的丢失。在多项长视频理解的基准测试中，该模型表现优异，尤其是在VNBench测试中，其准确率超越现有最佳方法近10%。在单个80GB GPU上，Video-XL能够处理2048帧视频，准确率接近95%。该模型在长视频特定任务，如电影总结、监控异常检测和广告投放识别等方面展现了广泛的应用潜力。

Video-XL

Video-XL的主要功能

小时级视频理解：能够处理非常长的视频内容，进行深入的理解与分析。
视觉压缩技术：利用视觉上下文潜在总结技术，将大量的视觉信息压缩为紧凑的形式，以适应模型的处理能力。
高效计算能力：在保持高准确率的同时，显著降低计算资源的消耗，使得在单个GPU上处理大量视频帧成为可能。
多模态数据处理：支持单图像、多图像和视频等多种数据类型的处理。
长视频特定任务处理：特别适用于电影总结、监控异常检测和广告投放识别等长视频相关任务。

Video-XL的技术原理

视觉上下文潜在总结（Visual Context Latent Summarization）：引入视觉总结标记（VSTs），有效压缩原始视觉上下文的激活（如自注意力模块中的键和值），形成紧凑的表示。
分块处理机制：将视觉标记序列分割为相同大小的块，在每个块中插入VSTs，利用LLM逐步压缩视觉信号。
自回归编码方法：在编码每个块时，Video-XL重用所有模块转换的VST隐藏状态，并结合额外的投影矩阵，将视觉信号的信息压缩到VST的激活中。
统一视觉编码方案：将单图像、多图像和视频统一编码到同一空间，以处理不同的多模态数据。
长视频数据集（VICO）：专门开发新的长视频数据集，以处理更长的视频及动态视觉上下文，增强模型的长视频理解能力。