JoyAI-VL-Interaction – 京东开源的实时视频视觉语言交互模型
京东JoyAI-VL-Interaction:赋能大模型从“一问一答”到“边看边说”的性飞跃
由京东Joy Future Academy倾力打造的JoyAI-VL-Interaction,作为全球首个全栈开源的实时视频视觉语言交互模型系统,正引领着人工智能交互方式的深刻变革。它打破了传统大模型依赖用户主动提问的局限,实现了模型能够自主感知、判断并实时响应视频流中的动态变化,甚至能将复杂的指令委托给后台的智能体(Agent)处理,真正实现了“边看边说”的智能交互体验。在权威的真人盲评中,JoyAI-VL-Interaction在58项测试中,对阵豆包视频通话助手胜率高达77.6%,对阵Gemini更是取得了87.9%的惊人胜率,充分证明了其卓越的性能和领先的技术实力。
JoyAI-VL-Interaction的核心能力亮点
- 主动视觉感知与响应:该模型具备持续观察摄像头、直播流或监控流的能力,能够自主判断何时需要开流、何时保持沉默,彻底摆脱了用户逐轮提问的束缚,实现更自然、流畅的交互。
- 瞬时流式互动体验:针对实时发生的视频内容,JoyAI-VL-Interaction能够实现秒级的即时反馈,迅速捕捉并响应画面中的任何变化,而非滞后地对整个视频进行总结,确保了交互的实时性和高效性。
- 智能体协同处理机制:当遇到代码生成、工具调用或深度推理等复杂任务时,模型能无缝地将这些任务委派给后端的强大模型或智能体,而自身则继续专注于对视频画面的观察,确保了交互的连续性和任务的深度处理。
- 全方位多模态输入输出:支持灵活的语音输入输出,提供直观的可视化界面,并具备长时记忆能力。其语音识别(ASR)、语音合成(TTS)以及界面均可根据实际需求进行模块化替换,提供了极高的灵活性。
- 分钟级视觉记忆回溯:模型拥有长达数分钟的视觉记忆能力,能够精准地回溯过去一段时间内的画面细节,并对此进行准确的回答,极大地增强了其上下文理解和信息提取的能力。
JoyAI-VL-Interaction背后的技术精髓
- 以视觉为先的交互决策引擎:模型的核心在于一个每秒自动运行的决策循环——决定“说话”、“沉默”还是“委托”。其基础是强大的JoyAI-VL-8B视觉语言指令模型,将语音视为可插拔的输入输出组件,模型的主要职责在于观察画面并精准判断行动的时机。
- 预测性视频编解码技术:通过引入AdaCodec预测性视频编解码器,模型能够仅对可预测的帧消耗极少的token,而在场景发生实际变化时保留完整的细节。这种机制使得token预算随时间缓慢增长,而非逐帧急剧膨胀,从而有效支撑长时间的实时流处理。
- 时序对齐的行为学习范式:模型通过海量的、超过400万条逐秒标注的时序交互片段进行训练,每条数据都精确地标记了何时应说话、何时应沉默或何时应委托。辅以强化学习的微调,使得模型的行为模式能够从数据中深度学习并优化。
- 高度可插拔的系统架构:围绕核心模型构建了一个完整的部署系统,集成了流式ASR/TTS、长时记忆模块、可视化UI以及后台模型桥接。所有组件均支持替换,整体系统运行于标准的vLLM基础设施之上,并获得了vLLM-Omni的即时原生支持。
扫描下方二维码,或在微信搜索“AI开源项目交流”公众号,回复“开源”,即可加入AI开源项目交流群。
轻松上手JoyAI-VL-Interaction
- 获取代码:访问GitHub开源仓库
jd-opensource/JoyAI-VL-Interaction,即可下载完整的代码和部署系统。 - 下载模型:前往Hugging Face平台,搜索
jdopensource/JoyAI-VL-Interaction-Preview,即可获取模型权重。 - 环境准备:基于标准的vLLM基础设施进行部署,支持接入摄像头、RTSP监控流、直播流等多种视频源。
- 灵活定制:可根据业务需求,替换ASR、TTS、语音服务、Agent、API接口或前端界面,轻松集成至自有业务系统。
- 即时体验:系统启动后,只需将摄像头或直播流指向模型,即可立即进入实时观察与智能交互状态。
JoyAI-VL-Interaction的突出优势
- 全栈开源的开放性:8B模型、训练方法、400万条时序数据以及完整的可部署系统全部开放,确保了项目的可复现性和可扩展性。
- 极致的实时在场感:模型能够长时间(数小时)持续观察直播流,响应延迟低于1秒,真正实现了“在场”而非仅仅是轮询式的唤醒。
- 视觉触发的主动性:由画面内容自主决策发言时机,在安防预警、实时翻译等场景中实现零延迟告警,大幅提升了响应效率。
- 高效的前后台分离设计:前台模型持续进行视觉观察,后台则专注于处理复杂任务,处理结果能够无缝接回对话,而不中断整体交互流程。
- 轻量化与易部署的特性:8B参数规模紧凑,可在标准基础设施上高效运行,显著降低了实时AI助手的部署门槛。
JoyAI-VL-Interaction的精彩应用场景
- 智能安防监控:实时分析监控画面,对摔倒、入侵等异常进行即时语音告警,解放人工盯屏的压力。
- 居家老人与儿童守护:持续观察家庭画面,及时发现并提醒靠近炉灶、独自外出等潜在危险行为。
- 直播互动与导购助手:实时解说直播内容,自动介绍商品详情,或根据用户穿搭提供个性化搭配建议。
- 即时多语言翻译:在观看外语视频或进行跨语言交流时,持续识别字幕或对话并实时进行语音翻译。
- 情境化操作指导:根据屏幕内容的变化,逐步指导用户完成App或设备操作,提供比静态截图更直观的帮助。
- AI眼镜与无障碍辅助:作为AI眼镜的核心视觉引擎,为视障人士实时描绘周围环境,并主动提示潜在的障碍物。
JoyAI-VL-Interaction与竞品的深度对比
| 对比维度 | JoyAI-VL-Interaction | 豆包视频通话模型 |
|---|---|---|
| 模型规模 | 8B 参数,专注于视觉语言交互的轻量级模型 | 通用多模态模型,参数规模较大 |
| 核心交互范式 | 视觉优先的主动交互,每秒自主判断“说/沉默/委托” | 依赖用户触发的轮询式问答,仅在用户提问后处理当前帧 |
| 实时视频处理能力 | 面向流式视频持续观察,画面变化即时响应 | 主要处理用户提问瞬间的静态画面快照 |
| 时序感知能力 | 内置时间感知,可执行“20秒后提醒”、“每3秒播报”等时序任务 | 时序任务表现不稳定,测试中存在未按时提醒的现象 |
| 记忆机制 | 分钟级长时视觉记忆,可回溯数分钟前画面细节 | 长时视觉记忆易出错,如测试现肉丸数量识别错误 |
| 视觉触发机制 | 由画面自主触发语音输出,无需用户提问 | 需用户主动提问才能生成回复,无法自主告警 |
| 持续跟踪能力 | 可稳定跟踪字幕变化、重复动作计数、App界面切换 | 跨帧状态维持困难,计数和翻译易中断 |
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


