JoyAI-Echo

AI工具10小时前更新 AI工具集
0 0 0

JoyAI-Echo – 京东开源的长音视频生成框架

JoyAI-Echo,京东倾力打造的开源长视频生成利器,为分钟级多镜头叙事注入了性的动力。它以其独创的跨模态记忆库、记忆驱动的后训练机制、智能导演代理的对话式编辑以及轻量化实时超分技术,有效攻克了长视频生成领域长期存在的角色“变脸”、声音“跑调”以及生成速度迟缓等顽疾。此番创新,使得生成长达 5 分钟、高度一致、交互便捷且画质高清的视频成为可能,标志着京东在长视频生成领域跻身全球第一梯队。

JoyAI-Echo 的核心能力

  • 分钟级多镜头故事编织:从一份简明的提示词 JSON 文件出发,JoyAI-Echo 能够编织出连贯的多镜头长视频序列,最长可达 5 分钟之久。
  • 音视频同步生成:采用单一管道设计,同步输出视频与音频,确保画面与声音的完美契合。
  • 跨模态记忆的精准匹配:在生成多镜头视频时,系统能持续保存并调用角色的外观特征与说话人的音色,为整个故事的流畅性提供坚实保障。
  • DMD 蒸馏赋能的高效推理:通过分布匹配蒸馏(DMD)技术的应用,实现了约 7.5 倍的生成速度飞跃。
  • Director Agent 的对话式创作体验:用户可以通过自然语言与智能导演代理进行互动,系统会自动解析剧本、角色、场景及镜头信息,并支持对局部内容的修改,无需重新生成整个视频。
  • 轻量化实时超分技术:支持将 736×1280 分辨率的视频,在保持流式延迟的前提下,实时超分至 1152×1920 或 1472×2560 的高清画质。

JoyAI-Echo 的技术基石

  • 跨模态音视频记忆库: JoyAI-Echo 的核心突破在于其内置的配对跨模态记忆库。通过“Slot-paired”机制,它将视觉记忆与音频记忆巧妙地结合存储。在生成多镜头视频的过程中,该记忆库会持续记录并调用角色的面部特征、整体形象、说话人的音色以及音画的对应关系。每一个新生成的镜头都会以先前镜头的身份特征为条件,从而在长达 5 分钟的视频中保持故事级的连贯性,彻底解决了角色“变脸”和声音“跑调”的难题。
  • 记忆驱动后训练与 DMD 速度优化: 该团队开发了一套记忆驱动的后训练流程,融合了监督微调(SFT)、跨模态 RLHF 以及分布匹配蒸馏(DMD)等技术。其中,DMD 技术将原本复杂的多步扩散推理过程压缩为少步推理,在保证生成质量的同时,将推理速度提升了约 7.5 倍,使得分钟级长视频的流式生成从理论走向现实。
  • Director Agent 交互式架构: 框架引入了一个智能导演代理(Director Agent),能够将用户的自然语言指令转化为结构化的剧本、镜头、角色和场景描述。它支持规划、生成、评审和局部修订的闭环工作流。用户可以通过对话方式进行修改,代理仅需重新生成有问题的局部镜头,无需整体重跑,将静态的生成过程转变为动态的协作模式。
  • 轻量化实时音视频超分: 为了满足专业内容生产对高清画质的需求,JoyAI-Echo 配备了单步音视频超分模块。该模块能够在流式延迟的约束下,将 736×1280 的基础输出实时锐化至 1152×1920 或 1472×2560,确保高分辨率输出不影响流式生成的实时性。

如何启用 JoyAI-Echo

  • 代码库克隆:使用以下命令获取项目代码:git clone https://github.com/jd-opensource/JoyAI-Echo.git
  • 环境搭建:建议使用 Python 3.11、PyTorch 2.8 和 CUDA 12.8。通过 conda 或 uv 进行依赖安装,并确保 ffmpeg 工具可用。
  • 模型权重下载:从 Hugging Face 下载约 46GB 的 echo-longvideo-release.safetensors 模型权重以及约 24GB 的 gemma-3-12b 文本编码器,并将它们放置在 checkpoints/ 目录下。
  • 编写故事提示词:创建一个 JSON 文件,按照角色与主体、动作与对话、风格、镜头、背景、音效与 BGM 的顺序来描述每个镜头的内容。
  • 执行推理生成:运行 python inference.py 命令。模型在一次性加载后将处理所有提示文件,并将生成的视频输出至 inference_result/outputs/ 目录。

JoyAI-Echo 的突出优势

  • 超长内容的一致性:在长达 5 分钟的视频中,角色身份、视觉形象和声音音色始终保持高度统一,有效解决了角色“串戏”的问题。
  • 极速生成体验:结合记忆驱动后训练与 DMD 技术,推理速度提升约 7.5 倍,大幅缩短了视频生成时间。
  • 对话式交互创作流程:Director Agent 将静态生成转变为动态协作,支持自然语言规划、评审和局部修订,显著降低了创作门槛。
  • 高清实时输出能力:轻量化超分模块在流式延迟下稳定输出高分辨率视频,满足专业内容生产的高标准要求。
  • 全面开源支持:代码与模型权重已全部开源,基于 LTX-2.3 和 Gemma 构建,为学术研究和二次开发提供了便利。

JoyAI-Echo 的项目链接

  • 项目官网:https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/
  • GitHub 仓库:https://github.com/jd-opensource/JoyAI-Echo

JoyAI-Echo 与同类竞品对比

对比维度JoyAI-EchoHappyOyster
长视频生成能力✅ 支持最长 5 分钟多镜头连贯故事生成✅ 支持长视频生成,但具体时长未明确公开
角色/身份一致性59.4% 用户偏好;跨模态记忆库确保多镜头角色外观与音色一致27.7% 用户偏好;未明确披露类似记忆机制
视觉美学63.6% 用户偏好27.6% 用户偏好
音频质量81.7% 用户偏好;联合音视频生成,音色稳定11.8% 用户偏好
提示词遵循80.6% 用户偏好;Director Agent 自动拆分剧本与镜头5.9% 用户偏好
生成速度✅ DMD 蒸馏加速,7.5 倍推理提速,支持流式生成标准多步扩散推理,未明确披露加速机制
对话式编辑✅ Director Agent 支持自然语言交互与局部镜头修订,无需重跑全片❌ 未明确支持对话式局部编辑
实时超分辨率✅ 轻量化单步超分,支持至 1472×2560❌ 未明确支持实时超分
开源情况✅ 代码与权重全面开源(学术研究/非商业用途)❌ 未开源
底层架构基于 LTX-2.3 + Gemma-3-12B,配对跨模态记忆库条件生成基于自研模型,具体技术细节披露较少

JoyAI-Echo 的应用前景

  • 虚拟故事创作与动漫制作:能够生成数分钟的连贯动画故事,确保角色在多镜头间形象和声音的稳定,显著降低传统动画制作成本。
  • 数字人内容生产与直播:为虚拟主播、数字人客服快速生成长视频内容,保证数字人在长时间输出中的面容和音色不漂移,增强真实感和专业度。
  • 品牌营销视频快速迭代:借助 Director Agent 的对话式编辑能力,营销团队可以像一样修改广告脚本和镜头,快速生成多版本品牌视频,缩短创意周期。
  • 影视前期预演与分镜制作:导演和制片方可以利用自然语言生成长片分镜和预演视频,在正式拍摄前验证镜头语言、角色走位和叙事节奏,降低试错成本。
阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...