StreamBridge

AI工具1年前 (2025)更新 AI工具集

StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架

StreamBridge

StreamBridge 是苹果公司与复旦大合开发的前沿视频大语言模型（Video-LLMs）框架，旨在帮助人工智能系统实时理解直播视频流。该框架利用内存缓冲区和轮次衰减压缩策略，支持长时间上下文交互，并采用轻量级激活模型以实现主动响应功能。研究团队还发布了一个包含约 60 万个样本的 Stream-IT 数据集，以增强流式视频理解的能力。

StreamBridge是什么

StreamBridge 是一款由苹果公司与复旦大学共同推出的先进端侧视频大语言模型（Video-LLMs）框架，旨在帮助人工智能以实时方式理解直播流视频。该框架运用内存缓冲区和轮次衰减压缩策略，支持长上下文的交互。同时，轻量级激活模型的引入使得系统能够主动响应。为了提升流式视频理解能力，研究团队还推出了包含约 60 万个样本的 Stream-IT 数据集。测试结果表明，StreamBridge 在多轮实时理解和主动响应方面显著增强了模型的能力，展现出在流式视频理解领域的巨大潜力。

StreamBridge的主要功能

多轮实时理解：支持长上下文的多轮交互，确保在处理最新视频片段时能够保留历史视觉和对话信息。
主动响应：模型能够主动监控视频流，及时提供反馈，而不需要明确的指令。
灵活集成：可无缝融入现有的视频大语言模型中，无需进行大规模修改。
数据支持：提供大规模的流式视频理解数据集Stream-IT，包含约60万个样本，支持多样的指令格式，便于模型的训练和优化。

StreamBridge的技术原理

记忆缓冲区：该系统负责存储和检索视频帧的嵌入信息，以支持多轮交互。每个新的视频帧被编码并添加到缓冲区中。当收到用户查询时，缓冲区内容会被整合成一个单一的输入嵌入序列，送入语言模型生成响应。
轮次衰减压缩策略：在生成响应之前，如果输入嵌入的长度超过预设的最大值，模型将从最早的对话轮次开始，逐帧合并视觉标记，直到总长度低于最大限制。合并操作通过平均池化实现，确保最近的视觉上下文得以保留。
轻量级激活模型：该模型是一个的轻量级多模态大语言模型（MLLM），与主视频大语言模型并行运行。激活模型接受当前帧（以及用户查询和前几帧的可选输入），并输出一个二进制信号，指示主模型是否应生成响应。通过得分头进行二分类（是否响应），在训练过程中引入可学习的激活标记<ACT>，以监督激活时机。
Stream-IT数据集：该数据集从大规模视频字幕语料库中筛选出语义相关的短片段，构建多轮问答序列，以模拟真实用户的实时交互。数据集包含约60万个样本，支持多种任务格式，如密集视频字幕、顺序步骤识别和基于视频的问题回答等。