OmniSync

OmniSync – 人民大合快手、清华推出的通用对口型框架

OmniSync

OmniSync是一款由中国人民大学、快手科技和清华大学携手打造的通用对口型框架，它基于扩散变换器技术，实现了视频中人物口型与语音的精确同步。OmniSync采用无掩码训练方式，直接编辑视频帧，无需参考帧或显式掩码，支持无限时长推理，同时确保面部动态的自然流畅和身份的一致性。它还引入了流匹配和动态时空分类器引导（DS-CFG）机制，解决了音频信号弱的问题，从而实现精准的口型同步。

### OmniSync：口型同步技术的革新者

OmniSync，这款由顶尖学府和科技巨头联合推出的创新产品，正在重新定义视频口型同步的标准。它不仅仅是一个工具，更是一项技术突破，旨在让视频中的口型与声音完美契合。

### OmniSync的核心优势

* **无缝编辑，无限可能**：OmniSync采用无掩码训练范式，直接编辑视频帧，摆脱了对参考帧或掩码的依赖，实现无限时长推理，让口型同步不再受限于时间。
* **身份保持，栩栩如生**：在精准修改嘴部区域的同时，OmniSync能够确保头部姿态和人物身份的稳定一致，让视频人物更具真实感。
* **音频增强，精准同步**：通过动态时空引导机制，OmniSync有效解决了音频信号弱的问题，确保口型同步的准确性，让声音与画面完美融合。
* **广泛兼容，应用无限**：OmniSync适用于各种场景，包括风格化角色、非人类实体以及AI生成内容，拓展了口型同步技术的应用边界。
* **自然流畅，浑然天成**：OmniSync在无限时长推理的同时，依然能够保持自然的面部动态和时间一致性，让观看体验更加流畅。
* **遮挡无惧，稳定可靠**：即使在面部遮挡等复杂情况下，OmniSync也能保持高质量的口型同步，确保视频的视觉效果。

### OmniSync的技术基石

* **扩散变换器，帧间编辑**：基于扩散变换器（Diffusion Transformers），OmniSync进行直接跨帧编辑，无需显式掩码或参考帧。通过迭代去噪学习映射函数，并引入时间步依赖采样策略，确保学习的稳定性。
* **渐进噪声初始化，空间一致**：基于流匹配（Flow Matching）技术，将控制噪声注入到原始帧中，仅执行最后的去噪步骤，保持空间一致性，实现嘴部区域的精确修改，有效避免姿态不一致和身份漂移问题。
* **动态时空分类器引导，精细控制**：DS-CFG机制提供了对音频影响的精细控制，通过时空自适应引导，平衡音频条件强度。空间自适应引导矩阵集中引导强度在嘴部区域，时间自适应引导则随着去噪过程的推进，逐渐降低引导强度，确保口型同步的准确性和自然度。

### 探索OmniSync的世界

* **项目官网**：https://ziqiaopeng.github.io/OmniSync/
* **技术论文**：https://arxiv.org/pdf/2505.21448

### OmniSync的应用前景

* **影视后期制作**：为电影、电视剧等影视作品实现角色口型与配音的完美匹配，提升观影体验。
* **虚拟现实体验**：为虚拟角色提供逼真的口型同步，增强沉浸感和交互性，让虚拟世界更加真实。
* **AI内容创作**：提升AI生成视频中口型同步的自然度，让AI生成的内容更具吸引力。
* **远程视频会议**：改善远程通信中的口型同步效果，提升沟通效率和体验。
* **游戏开发**：增强游戏角色的口型表现，提升游戏的互动性和沉浸感。

阅读原文