JoyAI-VL-Interaction

JoyAI-VL-Interaction – 京东开源的实时视频视觉语言交互模型

京东JoyAI-VL-Interaction：赋能大模型从“一问一答”到“边看边说”的性飞跃

由京东Joy Future Academy倾力打造的JoyAI-VL-Interaction，作为全球首个全栈开源的实时视频视觉语言交互模型系统，正引领着人工智能交互方式的深刻变革。它打破了传统大模型依赖用户主动提问的局限，实现了模型能够自主感知、判断并实时响应视频流中的动态变化，甚至能将复杂的指令委托给后台的智能体（Agent）处理，真正实现了“边看边说”的智能交互体验。在权威的真人盲评中，JoyAI-VL-Interaction在58项测试中，对阵豆包视频通话助手胜率高达77.6%，对阵Gemini更是取得了87.9%的惊人胜率，充分证明了其卓越的性能和领先的技术实力。

JoyAI-VL-Interaction的核心能力亮点

主动视觉感知与响应：该模型具备持续观察摄像头、直播流或监控流的能力，能够自主判断何时需要开流、何时保持沉默，彻底摆脱了用户逐轮提问的束缚，实现更自然、流畅的交互。
瞬时流式互动体验：针对实时发生的视频内容，JoyAI-VL-Interaction能够实现秒级的即时反馈，迅速捕捉并响应画面中的任何变化，而非滞后地对整个视频进行总结，确保了交互的实时性和高效性。
智能体协同处理机制：当遇到代码生成、工具调用或深度推理等复杂任务时，模型能无缝地将这些任务委派给后端的强大模型或智能体，而自身则继续专注于对视频画面的观察，确保了交互的连续性和任务的深度处理。
全方位多模态输入输出：支持灵活的语音输入输出，提供直观的可视化界面，并具备长时记忆能力。其语音识别（ASR）、语音合成（TTS）以及界面均可根据实际需求进行模块化替换，提供了极高的灵活性。
分钟级视觉记忆回溯：模型拥有长达数分钟的视觉记忆能力，能够精准地回溯过去一段时间内的画面细节，并对此进行准确的回答，极大地增强了其上下文理解和信息提取的能力。

JoyAI-VL-Interaction背后的技术精髓

以视觉为先的交互决策引擎：模型的核心在于一个每秒自动运行的决策循环——决定“说话”、“沉默”还是“委托”。其基础是强大的JoyAI-VL-8B视觉语言指令模型，将语音视为可插拔的输入输出组件，模型的主要职责在于观察画面并精准判断行动的时机。
预测性视频编解码技术：通过引入AdaCodec预测性视频编解码器，模型能够仅对可预测的帧消耗极少的token，而在场景发生实际变化时保留完整的细节。这种机制使得token预算随时间缓慢增长，而非逐帧急剧膨胀，从而有效支撑长时间的实时流处理。
时序对齐的行为学习范式：模型通过海量的、超过400万条逐秒标注的时序交互片段进行训练，每条数据都精确地标记了何时应说话、何时应沉默或何时应委托。辅以强化学习的微调，使得模型的行为模式能够从数据中深度学习并优化。
高度可插拔的系统架构：围绕核心模型构建了一个完整的部署系统，集成了流式ASR/TTS、长时记忆模块、可视化UI以及后台模型桥接。所有组件均支持替换，整体系统运行于标准的vLLM基础设施之上，并获得了vLLM-Omni的即时原生支持。

扫描下方二维码，或在微信搜索“AI开源项目交流”公众号，回复“开源”，即可加入AI开源项目交流群。

轻松上手JoyAI-VL-Interaction

获取代码：访问GitHub开源仓库jd-opensource/JoyAI-VL-Interaction，即可下载完整的代码和部署系统。
下载模型：前往Hugging Face平台，搜索jdopensource/JoyAI-VL-Interaction-Preview，即可获取模型权重。
环境准备：基于标准的vLLM基础设施进行部署，支持接入摄像头、RTSP监控流、直播流等多种视频源。
灵活定制：可根据业务需求，替换ASR、TTS、语音服务、Agent、API接口或前端界面，轻松集成至自有业务系统。
即时体验：系统启动后，只需将摄像头或直播流指向模型，即可立即进入实时观察与智能交互状态。

JoyAI-VL-Interaction的突出优势

全栈开源的开放性：8B模型、训练方法、400万条时序数据以及完整的可部署系统全部开放，确保了项目的可复现性和可扩展性。
极致的实时在场感：模型能够长时间（数小时）持续观察直播流，响应延迟低于1秒，真正实现了“在场”而非仅仅是轮询式的唤醒。
视觉触发的主动性：由画面内容自主决策发言时机，在安防预警、实时翻译等场景中实现零延迟告警，大幅提升了响应效率。
高效的前后台分离设计：前台模型持续进行视觉观察，后台则专注于处理复杂任务，处理结果能够无缝接回对话，而不中断整体交互流程。
轻量化与易部署的特性：8B参数规模紧凑，可在标准基础设施上高效运行，显著降低了实时AI助手的部署门槛。

JoyAI-VL-Interaction的精彩应用场景

智能安防监控：实时分析监控画面，对摔倒、入侵等异常进行即时语音告警，解放人工盯屏的压力。
居家老人与儿童守护：持续观察家庭画面，及时发现并提醒靠近炉灶、独自外出等潜在危险行为。
直播互动与导购助手：实时解说直播内容，自动介绍商品详情，或根据用户穿搭提供个性化搭配建议。
即时多语言翻译：在观看外语视频或进行跨语言交流时，持续识别字幕或对话并实时进行语音翻译。
情境化操作指导：根据屏幕内容的变化，逐步指导用户完成App或设备操作，提供比静态截图更直观的帮助。
AI眼镜与无障碍辅助：作为AI眼镜的核心视觉引擎，为视障人士实时描绘周围环境，并主动提示潜在的障碍物。

JoyAI-VL-Interaction与竞品的深度对比

对比维度	JoyAI-VL-Interaction	豆包视频通话模型
模型规模	8B 参数，专注于视觉语言交互的轻量级模型	通用多模态模型，参数规模较大
核心交互范式	视觉优先的主动交互，每秒自主判断“说/沉默/委托”	依赖用户触发的轮询式问答，仅在用户提问后处理当前帧
实时视频处理能力	面向流式视频持续观察，画面变化即时响应	主要处理用户提问瞬间的静态画面快照
时序感知能力	内置时间感知，可执行“20秒后提醒”、“每3秒播报”等时序任务	时序任务表现不稳定，测试中存在未按时提醒的现象
记忆机制	分钟级长时视觉记忆，可回溯数分钟前画面细节	长时视觉记忆易出错，如测试现肉丸数量识别错误
视觉触发机制	由画面自主触发语音输出，无需用户提问	需用户主动提问才能生成回复，无法自主告警
持续跟踪能力	可稳定跟踪字幕变化、重复动作计数、App界面切换	跨帧状态维持困难，计数和翻译易中断