StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架
StreamBridge 是苹果公司与复旦大合开发的前沿视频大语言模型(Video-LLMs)框架,旨在帮助人工智能系统实时理解直播视频流。该框架利用内存缓冲区和轮次衰减压缩策略,支持长时间上下文交互,并采用轻量级激活模型以实现主动响应功能。研究团队还发布了一个包含约 60 万个样本的 Stream-IT 数据集,以增强流式视频理解的能力。
StreamBridge是什么
StreamBridge 是一款由苹果公司与复旦大学共同推出的先进端侧视频大语言模型(Video-LLMs)框架,旨在帮助人工智能以实时方式理解直播流视频。该框架运用内存缓冲区和轮次衰减压缩策略,支持长上下文的交互。同时,轻量级激活模型的引入使得系统能够主动响应。为了提升流式视频理解能力,研究团队还推出了包含约 60 万个样本的 Stream-IT 数据集。测试结果表明,StreamBridge 在多轮实时理解和主动响应方面显著增强了模型的能力,展现出在流式视频理解领域的巨大潜力。
StreamBridge的主要功能
- 多轮实时理解:支持长上下文的多轮交互,确保在处理最新视频片段时能够保留历史视觉和对话信息。
- 主动响应:模型能够主动监控视频流,及时提供反馈,而不需要明确的指令。
- 灵活集成:可无缝融入现有的视频大语言模型中,无需进行大规模修改。
- 数据支持:提供大规模的流式视频理解数据集Stream-IT,包含约60万个样本,支持多样的指令格式,便于模型的训练和优化。
StreamBridge的技术原理
- 记忆缓冲区:该系统负责存储和检索视频帧的嵌入信息,以支持多轮交互。每个新的视频帧被编码并添加到缓冲区中。当收到用户查询时,缓冲区内容会被整合成一个单一的输入嵌入序列,送入语言模型生成响应。
- 轮次衰减压缩策略:在生成响应之前,如果输入嵌入的长度超过预设的最大值,模型将从最早的对话轮次开始,逐帧合并视觉标记,直到总长度低于最大限制。合并操作通过平均池化实现,确保最近的视觉上下文得以保留。
- 轻量级激活模型:该模型是一个的轻量级多模态大语言模型(MLLM),与主视频大语言模型并行运行。激活模型接受当前帧(以及用户查询和前几帧的可选输入),并输出一个二进制信号,指示主模型是否应生成响应。通过得分头进行二分类(是否响应),在训练过程中引入可学习的激活标记<ACT>,以监督激活时机。
- Stream-IT数据集:该数据集从大规模视频字幕语料库中筛选出语义相关的短片段,构建多轮问答序列,以模拟真实用户的实时交互。数据集包含约60万个样本,支持多种任务格式,如密集视频字幕、顺序步骤识别和基于视频的问题回答等。
StreamBridge的项目地址
- arXiv技术论文:https://arxiv.org/pdf/2505.05467
StreamBridge的应用场景
- 实时视频交互:提升视频会议、在线教育等场景中的互动体验。
- 自动驾驶辅助:实时处理路况视频,以辅助自动驾驶决策。
- 智能监控:实时分析监控视频,快速识别异常行为。
- 机器人视觉:帮助机器人实时理解周围环境,实现自然的交互。
- 内容创作:辅助视频创作和编辑,提供实时内容分析。
常见问题
- StreamBridge能够支持哪些类型的视频流? StreamBridge可以处理各类直播视频流,适用于实时交互场景。
- 如何训练StreamBridge模型? 可以使用Stream-IT数据集进行训练,支持多样化的指令格式。
- StreamBridge的集成难度如何? StreamBridge设计为易于集成,可以无缝加入现有的视频大语言模型中。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...