JoyAI-Echo

JoyAI-Echo – 京东开源的长音视频生成框架

JoyAI-Echo，京东倾力打造的开源长视频生成利器，为分钟级多镜头叙事注入了性的动力。它以其独创的跨模态记忆库、记忆驱动的后训练机制、智能导演代理的对话式编辑以及轻量化实时超分技术，有效攻克了长视频生成领域长期存在的角色“变脸”、声音“跑调”以及生成速度迟缓等顽疾。此番创新，使得生成长达 5 分钟、高度一致、交互便捷且画质高清的视频成为可能，标志着京东在长视频生成领域跻身全球第一梯队。

JoyAI-Echo 的核心能力

分钟级多镜头故事编织：从一份简明的提示词 JSON 文件出发，JoyAI-Echo 能够编织出连贯的多镜头长视频序列，最长可达 5 分钟之久。
音视频同步生成：采用单一管道设计，同步输出视频与音频，确保画面与声音的完美契合。
跨模态记忆的精准匹配：在生成多镜头视频时，系统能持续保存并调用角色的外观特征与说话人的音色，为整个故事的流畅性提供坚实保障。
DMD 蒸馏赋能的高效推理：通过分布匹配蒸馏（DMD）技术的应用，实现了约 7.5 倍的生成速度飞跃。
Director Agent 的对话式创作体验：用户可以通过自然语言与智能导演代理进行互动，系统会自动解析剧本、角色、场景及镜头信息，并支持对局部内容的修改，无需重新生成整个视频。
轻量化实时超分技术：支持将 736×1280 分辨率的视频，在保持流式延迟的前提下，实时超分至 1152×1920 或 1472×2560 的高清画质。

JoyAI-Echo 的技术基石

跨模态音视频记忆库： JoyAI-Echo 的核心突破在于其内置的配对跨模态记忆库。通过“Slot-paired”机制，它将视觉记忆与音频记忆巧妙地结合存储。在生成多镜头视频的过程中，该记忆库会持续记录并调用角色的面部特征、整体形象、说话人的音色以及音画的对应关系。每一个新生成的镜头都会以先前镜头的身份特征为条件，从而在长达 5 分钟的视频中保持故事级的连贯性，彻底解决了角色“变脸”和声音“跑调”的难题。
记忆驱动后训练与 DMD 速度优化： 该团队开发了一套记忆驱动的后训练流程，融合了监督微调（SFT）、跨模态 RLHF 以及分布匹配蒸馏（DMD）等技术。其中，DMD 技术将原本复杂的多步扩散推理过程压缩为少步推理，在保证生成质量的同时，将推理速度提升了约 7.5 倍，使得分钟级长视频的流式生成从理论走向现实。
Director Agent 交互式架构： 框架引入了一个智能导演代理（Director Agent），能够将用户的自然语言指令转化为结构化的剧本、镜头、角色和场景描述。它支持规划、生成、评审和局部修订的闭环工作流。用户可以通过对话方式进行修改，代理仅需重新生成有问题的局部镜头，无需整体重跑，将静态的生成过程转变为动态的协作模式。
轻量化实时音视频超分： 为了满足专业内容生产对高清画质的需求，JoyAI-Echo 配备了单步音视频超分模块。该模块能够在流式延迟的约束下，将 736×1280 的基础输出实时锐化至 1152×1920 或 1472×2560，确保高分辨率输出不影响流式生成的实时性。

如何启用 JoyAI-Echo

代码库克隆：使用以下命令获取项目代码：git clone https://github.com/jd-opensource/JoyAI-Echo.git
环境搭建：建议使用 Python 3.11、PyTorch 2.8 和 CUDA 12.8。通过 conda 或 uv 进行依赖安装，并确保 ffmpeg 工具可用。
模型权重下载：从 Hugging Face 下载约 46GB 的 echo-longvideo-release.safetensors 模型权重以及约 24GB 的 gemma-3-12b 文本编码器，并将它们放置在 checkpoints/ 目录下。
编写故事提示词：创建一个 JSON 文件，按照角色与主体、动作与对话、风格、镜头、背景、音效与 BGM 的顺序来描述每个镜头的内容。
执行推理生成：运行 python inference.py 命令。模型在一次性加载后将处理所有提示文件，并将生成的视频输出至 inference_result/outputs/ 目录。

JoyAI-Echo 的突出优势

超长内容的一致性：在长达 5 分钟的视频中，角色身份、视觉形象和声音音色始终保持高度统一，有效解决了角色“串戏”的问题。
极速生成体验：结合记忆驱动后训练与 DMD 技术，推理速度提升约 7.5 倍，大幅缩短了视频生成时间。
对话式交互创作流程：Director Agent 将静态生成转变为动态协作，支持自然语言规划、评审和局部修订，显著降低了创作门槛。
高清实时输出能力：轻量化超分模块在流式延迟下稳定输出高分辨率视频，满足专业内容生产的高标准要求。
全面开源支持：代码与模型权重已全部开源，基于 LTX-2.3 和 Gemma 构建，为学术研究和二次开发提供了便利。

JoyAI-Echo 的项目链接

项目官网：https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/
GitHub 仓库：https://github.com/jd-opensource/JoyAI-Echo

JoyAI-Echo 与同类竞品对比

对比维度	JoyAI-Echo	HappyOyster
长视频生成能力	✅ 支持最长 5 分钟多镜头连贯故事生成	✅ 支持长视频生成，但具体时长未明确公开
角色/身份一致性	✅ 59.4% 用户偏好；跨模态记忆库确保多镜头角色外观与音色一致	27.7% 用户偏好；未明确披露类似记忆机制
视觉美学	✅ 63.6% 用户偏好	27.6% 用户偏好
音频质量	✅ 81.7% 用户偏好；联合音视频生成，音色稳定	11.8% 用户偏好
提示词遵循	✅ 80.6% 用户偏好；Director Agent 自动拆分剧本与镜头	5.9% 用户偏好
生成速度	✅ DMD 蒸馏加速，7.5 倍推理提速，支持流式生成	标准多步扩散推理，未明确披露加速机制
对话式编辑	✅ Director Agent 支持自然语言交互与局部镜头修订，无需重跑全片	❌ 未明确支持对话式局部编辑
实时超分辨率	✅ 轻量化单步超分，支持至 1472×2560	❌ 未明确支持实时超分
开源情况	✅ 代码与权重全面开源（学术研究/非商业用途）	❌ 未开源
底层架构	基于 LTX-2.3 + Gemma-3-12B，配对跨模态记忆库条件生成	基于自研模型，具体技术细节披露较少

JoyAI-Echo 的应用前景

虚拟故事创作与动漫制作：能够生成数分钟的连贯动画故事，确保角色在多镜头间形象和声音的稳定，显著降低传统动画制作成本。
数字人内容生产与直播：为虚拟主播、数字人客服快速生成长视频内容，保证数字人在长时间输出中的面容和音色不漂移，增强真实感和专业度。
品牌营销视频快速迭代：借助 Director Agent 的对话式编辑能力，营销团队可以像一样修改广告脚本和镜头，快速生成多版本品牌视频，缩短创意周期。
影视前期预演与分镜制作：导演和制片方可以利用自然语言生成长片分镜和预演视频，在正式拍摄前验证镜头语言、角色走位和叙事节奏，降低试错成本。

阅读原文