InternVideo2.5 – 上海 AI Lab 联合南大、中科院开源的视频多模态大模型
InternVideo2.5是由上海人工智能实验室、学和中科院深圳先进技术研究院联合开源的一款视频多模态大模型。该模型在视频理解领域实现了突破性进展,尤其在处理长视频和细粒度时空感知方面表现卓越。InternVideo2.5可以处理长达万帧的视频,视频处理能力较前一版本提升了六倍,能够在长视频中准确定位目标帧,完成高效的视频检索。
InternVideo2.5是什么
InternVideo2.5是一款由上海人工智能实验室与学及中科院深圳先进技术研究院共同开发并开源的视频多模态大模型。该模型在视频理解领域取得了显著的成果,尤其是在长视频处理和细粒度时空感知方面表现出色。它能够处理长达万帧的视频,与前代相比,视频处理长度提升了六倍,使得在长视频中精准定位目标帧成为可能,实现了高效的视频检索。该模型支持通用视频问答,并能够完成目标跟踪、分割等专业视觉任务。
InternVideo2.5的主要功能
- 超长视频处理:InternVideo2.5具备处理长达万帧的视频的能力,其视频处理长度较前代提升了六倍(从3000帧到10000帧),能够在长视频中精准定位目标帧,提高视频分析的效率。
- 细粒度时空感知:该模型能够准确识别和定位视频中的物体、场景和动作,并理解细微的时空关系。它支持通用视频问答,能够完成目标跟踪、分割等专业视觉任务,并在复杂场景下识别物体的轨迹和状态变化,为自动驾驶和监控安防等领域提供精准的视觉支持。
- 多模态融合:InternVideo2.5将视觉理解与语言处理深度结合,能够根据视频内容生成详尽的描述并回答用户提问。
- 专业视觉任务支持:通过任务偏好优化(TPO),InternVideo2.5能够处理多种专业视觉任务,如目标跟踪、分割和时间定位,能根据任务需求动态调整模型处理策略,以在不同场景下提供最优的视觉分析能力。
- 高效预训练与优化:InternVideo2.5采用渐进式多阶段训练方案,使用超过30万小时的视频数据进行预训练,从而提升模型性能并降低训练成本。
InternVideo2.5的技术原理
- 长时丰富上下文建模(LRC):LRC通过扩展模型的上下文长度和细节感知能力,使InternVideo2.5能够处理万帧视频。其核心在于:
- 视频长度自适应令牌表示:根据视频的长度和内容特征动态调整帧采样策略。例如,短序列(如秒级视频)采用密样(每秒15帧),而长序列(如分钟或小时级视频)则采用稀疏采样(每秒1帧),确保能够有效捕捉不同时间尺度上的信息。
- 分层上下文压缩(HiCo):通过分层压缩机制,减少视频信号中的时空冗余,同时保留关键信息。具体包括:
- 时空令牌合并:基于语义相似性进行令牌合并,而非简单的基于位置的池化操作,从而在保留细节的同时显著减少冗余信息。
- 多模态上下文整合:在语言模型处理阶段,进一步整合压缩后的视觉令牌,确保视觉与语言信息的深度融合。
- 任务偏好优化(TPO):TPO通过将细粒度视觉任务的标注信息转化为可微分的任务偏好,指导模型学习,使InternVideo2.5能够处理多种专业视觉任务。具体实现方式包括:
- 任务特定组件集成:在模型中加入任务特定的组件(如时间头、掩码适配器等),并通过任务特定数据集进行训练。
- 视觉概念预训练:使用大量图像和视频文本对进行预训练,进一步提升模型的视觉理解能力。
- 渐进式多阶段训练方案:InternVideo2.5采用渐进式多阶段训练方案,逐步提升模型性能:
- 基础学习阶段:进行任务识别指令调整和视频语言对齐训练。
- 细粒度感知训练阶段:通过集成任务特定组件和视觉概念预训练,增强视觉理解能力。
- 综合优化阶段:在混合语料库上进行多任务训练和指令调整,优化所有模型组件。
- 高效分布式系统:为支持大规模视频数据的训练和测试,InternVideo2.5开发了基于多模态序列并行的分布式系统。该系统结合了序列和张量的分布式处理,以及动态数据打包技术,显著提高了训练效率。
InternVideo2.5的项目地址
- Github仓库:https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
- HuggingFace模型库:https://huggingface.co/OpenGVLab/InternVideo2_5
- arXiv技术论文:https://arxiv.org/pdf/2501.12386
InternVideo2.5的应用场景
- 视频内容理解与检索:InternVideo2.5能够根据用户的文本查询快速找到相关视频内容,支持复杂的视频检索任务。
- 视频编辑与创作:该模型能够为视频编辑提供智能支持,例如自动生成精彩片段、生成字幕或解说词,提升视频创作的效率。
- 监控安防:在监控安防领域,InternVideo2.5能够实时分析监控视频,快速定位异常并发出警报。
- 自动驾驶:InternVideo2.5能够实时处理自动驾驶车辆的摄像头数据,准确识别道路标志、交通信号和障碍物。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...