JoyAI-VL-Interaction

AI工具29分钟前更新 AI工具集
0 0 0

JoyAI-VL-Interaction – 京东开源的实时视频视觉语言交互模型

京东JoyAI-VL-Interaction:赋能大模型从“一问一答”到“边看边说”的性飞跃

由京东Joy Future Academy倾力打造的JoyAI-VL-Interaction,作为全球首个全栈开源的实时视频视觉语言交互模型系统,正引领着人工智能交互方式的深刻变革。它打破了传统大模型依赖用户主动提问的局限,实现了模型能够自主感知、判断并实时响应视频流中的动态变化,甚至能将复杂的指令委托给后台的智能体(Agent)处理,真正实现了“边看边说”的智能交互体验。在权威的真人盲评中,JoyAI-VL-Interaction在58项测试中,对阵豆包视频通话助手胜率高达77.6%,对阵Gemini更是取得了87.9%的惊人胜率,充分证明了其卓越的性能和领先的技术实力。

JoyAI-VL-Interaction的核心能力亮点

  • 主动视觉感知与响应:该模型具备持续观察摄像头、直播流或监控流的能力,能够自主判断何时需要开流、何时保持沉默,彻底摆脱了用户逐轮提问的束缚,实现更自然、流畅的交互。
  • 瞬时流式互动体验:针对实时发生的视频内容,JoyAI-VL-Interaction能够实现秒级的即时反馈,迅速捕捉并响应画面中的任何变化,而非滞后地对整个视频进行总结,确保了交互的实时性和高效性。
  • 智能体协同处理机制:当遇到代码生成、工具调用或深度推理等复杂任务时,模型能无缝地将这些任务委派给后端的强大模型或智能体,而自身则继续专注于对视频画面的观察,确保了交互的连续性和任务的深度处理。
  • 全方位多模态输入输出:支持灵活的语音输入输出,提供直观的可视化界面,并具备长时记忆能力。其语音识别(ASR)、语音合成(TTS)以及界面均可根据实际需求进行模块化替换,提供了极高的灵活性。
  • 分钟级视觉记忆回溯:模型拥有长达数分钟的视觉记忆能力,能够精准地回溯过去一段时间内的画面细节,并对此进行准确的回答,极大地增强了其上下文理解和信息提取的能力。

JoyAI-VL-Interaction背后的技术精髓

  • 以视觉为先的交互决策引擎:模型的核心在于一个每秒自动运行的决策循环——决定“说话”、“沉默”还是“委托”。其基础是强大的JoyAI-VL-8B视觉语言指令模型,将语音视为可插拔的输入输出组件,模型的主要职责在于观察画面并精准判断行动的时机。
  • 预测性视频编解码技术:通过引入AdaCodec预测性视频编解码器,模型能够仅对可预测的帧消耗极少的token,而在场景发生实际变化时保留完整的细节。这种机制使得token预算随时间缓慢增长,而非逐帧急剧膨胀,从而有效支撑长时间的实时流处理。
  • 时序对齐的行为学习范式:模型通过海量的、超过400万条逐秒标注的时序交互片段进行训练,每条数据都精确地标记了何时应说话、何时应沉默或何时应委托。辅以强化学习的微调,使得模型的行为模式能够从数据中深度学习并优化。
  • 高度可插拔的系统架构:围绕核心模型构建了一个完整的部署系统,集成了流式ASR/TTS、长时记忆模块、可视化UI以及后台模型桥接。所有组件均支持替换,整体系统运行于标准的vLLM基础设施之上,并获得了vLLM-Omni的即时原生支持。

扫描下方二维码,或在微信搜索“AI开源项目交流”公众号,回复“开源”,即可加入AI开源项目交流群

轻松上手JoyAI-VL-Interaction

  • 获取代码:访问GitHub开源仓库jd-opensource/JoyAI-VL-Interaction,即可下载完整的代码和部署系统。
  • 下载模型:前往Hugging Face平台,搜索jdopensource/JoyAI-VL-Interaction-Preview,即可获取模型权重。
  • 环境准备:基于标准的vLLM基础设施进行部署,支持接入摄像头、RTSP监控流、直播流等多种视频源。
  • 灵活定制:可根据业务需求,替换ASR、TTS、语音服务、Agent、API接口或前端界面,轻松集成至自有业务系统。
  • 即时体验:系统启动后,只需将摄像头或直播流指向模型,即可立即进入实时观察与智能交互状态。

JoyAI-VL-Interaction的突出优势

  • 全栈开源的开放性:8B模型、训练方法、400万条时序数据以及完整的可部署系统全部开放,确保了项目的可复现性和可扩展性。
  • 极致的实时在场感:模型能够长时间(数小时)持续观察直播流,响应延迟低于1秒,真正实现了“在场”而非仅仅是轮询式的唤醒。
  • 视觉触发的主动性:由画面内容自主决策发言时机,在安防预警、实时翻译等场景中实现零延迟告警,大幅提升了响应效率。
  • 高效的前后台分离设计:前台模型持续进行视觉观察,后台则专注于处理复杂任务,处理结果能够无缝接回对话,而不中断整体交互流程。
  • 轻量化与易部署的特性:8B参数规模紧凑,可在标准基础设施上高效运行,显著降低了实时AI助手的部署门槛。

JoyAI-VL-Interaction的精彩应用场景

  • 智能安防监控:实时分析监控画面,对摔倒、入侵等异常进行即时语音告警,解放人工盯屏的压力。
  • 居家老人与儿童守护:持续观察家庭画面,及时发现并提醒靠近炉灶、独自外出等潜在危险行为。
  • 直播互动与导购助手:实时解说直播内容,自动介绍商品详情,或根据用户穿搭提供个性化搭配建议。
  • 即时多语言翻译:在观看外语视频或进行跨语言交流时,持续识别字幕或对话并实时进行语音翻译。
  • 情境化操作指导:根据屏幕内容的变化,逐步指导用户完成App或设备操作,提供比静态截图更直观的帮助。
  • AI眼镜与无障碍辅助:作为AI眼镜的核心视觉引擎,为视障人士实时描绘周围环境,并主动提示潜在的障碍物。

JoyAI-VL-Interaction与竞品的深度对比

对比维度JoyAI-VL-Interaction豆包视频通话模型
模型规模8B 参数,专注于视觉语言交互的轻量级模型通用多模态模型,参数规模较大
核心交互范式视觉优先的主动交互,每秒自主判断“说/沉默/委托”依赖用户触发的轮询式问答,仅在用户提问后处理当前帧
实时视频处理能力面向流式视频持续观察,画面变化即时响应主要处理用户提问瞬间的静态画面快照
时序感知能力内置时间感知,可执行“20秒后提醒”、“每3秒播报”等时序任务时序任务表现不稳定,测试中存在未按时提醒的现象
记忆机制分钟级长时视觉记忆,可回溯数分钟前画面细节长时视觉记忆易出错,如测试现肉丸数量识别错误
视觉触发机制由画面自主触发语音输出,无需用户提问需用户主动提问才能生成回复,无法自主告警
持续跟踪能力可稳定跟踪字幕变化、重复动作计数、App界面切换跨帧状态维持困难,计数和翻译易中断
阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...