StreamBridge

StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架

StreamBridge

StreamBridge 是苹果公司与复旦大合开发的前沿视频大语言模型(Video-LLMs)框架,旨在帮助人工智能系统实时理解直播视频流。该框架利用内存缓冲区和轮次衰减压缩策略,支持长时间上下文交互,并采用轻量级激活模型以实现主动响应功能。研究团队还发布了一个包含约 60 万个样本的 Stream-IT 数据集,以增强流式视频理解的能力。

StreamBridge是什么

StreamBridge 是一款由苹果公司与复旦大学共同推出的先进端侧视频大语言模型(Video-LLMs)框架,旨在帮助人工智能以实时方式理解直播流视频。该框架运用内存缓冲区和轮次衰减压缩策略,支持长上下文的交互。同时,轻量级激活模型的引入使得系统能够主动响应。为了提升流式视频理解能力,研究团队还推出了包含约 60 万个样本的 Stream-IT 数据集。测试结果表明,StreamBridge 在多轮实时理解和主动响应方面显著增强了模型的能力,展现出在流式视频理解领域的巨大潜力。

StreamBridge的主要功能

  • 多轮实时理解:支持长上下文的多轮交互,确保在处理最新视频片段时能够保留历史视觉和对话信息。
  • 主动响应:模型能够主动监控视频流,及时提供反馈,而不需要明确的指令。
  • 灵活集成:可无缝融入现有的视频大语言模型中,无需进行大规模修改。
  • 数据支持:提供大规模的流式视频理解数据集Stream-IT,包含约60万个样本,支持多样的指令格式,便于模型的训练和优化。

StreamBridge的技术原理

  • 记忆缓冲区:该系统负责存储和检索视频帧的嵌入信息,以支持多轮交互。每个新的视频帧被编码并添加到缓冲区中。当收到用户查询时,缓冲区内容会被整合成一个单一的输入嵌入序列,送入语言模型生成响应。
  • 轮次衰减压缩策略:在生成响应之前,如果输入嵌入的长度超过预设的最大值,模型将从最早的对话轮次开始,逐帧合并视觉标记,直到总长度低于最大限制。合并操作通过平均池化实现,确保最近的视觉上下文得以保留。
  • 轻量级激活模型:该模型是一个的轻量级多模态大语言模型(MLLM),与主视频大语言模型并行运行。激活模型接受当前帧(以及用户查询和前几帧的可选输入),并输出一个二进制信号,指示主模型是否应生成响应。通过得分头进行二分类(是否响应),在训练过程中引入可学习的激活标记<ACT>,以监督激活时机。
  • Stream-IT数据集:该数据集从大规模视频字幕语料库中筛选出语义相关的短片段,构建多轮问答序列,以模拟真实用户的实时交互。数据集包含约60万个样本,支持多种任务格式,如密集视频字幕、顺序步骤识别和基于视频的问题回答等。

StreamBridge的项目地址

StreamBridge的应用场景

  • 实时视频交互:提升视频会议、在线教育等场景中的互动体验。
  • 自动驾驶辅助:实时处理路况视频,以辅助自动驾驶决策。
  • 智能监控:实时分析监控视频,快速识别异常行为。
  • 机器人视觉:帮助机器人实时理解周围环境,实现自然的交互。
  • 内容创作:辅助视频创作和编辑,提供实时内容分析。

常见问题

  • StreamBridge能够支持哪些类型的视频流? StreamBridge可以处理各类直播视频流,适用于实时交互场景。
  • 如何训练StreamBridge模型? 可以使用Stream-IT数据集进行训练,支持多样化的指令格式。
  • StreamBridge的集成难度如何? StreamBridge设计为易于集成,可以无缝加入现有的视频大语言模型中。
阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...