KeySync – 帝国理工联合弗罗茨瓦夫大学推出的口型同步框架
KeySync 是由帝国理工学院和弗罗茨瓦夫大合开发的高分辨率口型同步框架,旨在精准将输入的音频与视频中的唇部动作进行对齐。该系统采用两阶段生成方法,首先提取音频中的关键唇部动作生成关键帧,然后通过插值技术平滑过渡至中间帧,确保口型与声音的完美匹配。
KeySync是什么
KeySync 是一款高分辨率口型同步框架,由帝国理工学院与弗罗茨瓦夫大学共同推出,能够将输入音频与视频中的口型动作准确对齐。该系统采用了两阶段框架,首先生成关键帧以捕捉音频中的主要唇部动作,接着通过插值生成流畅的过渡帧。此外,KeySync 引入了创新的掩码策略,有效减少了输入视频中的表情泄露,并使用视频分割模型自动处理遮挡问题。相比其他现有技术,KeySync 在视觉质量、时间连贯性以及唇部同步的准确性方面表现更为优异,广泛适用于自动配音等实际场景。
KeySync的主要功能
- 高分辨率口型同步:生成与输入音频高度对齐的高清(512×512)视频,适应多种实际应用。
- 减少表情泄露:有效降低输入视频中的表情泄露,提升整体同步效果。
- 遮挡处理:在推理过程中自动识别并排除遮挡物(如手部、物体等),确保生成视频的自然性。
- 提升视觉质量:在多个量化指标和用户研究中表现卓越,生成的视频清晰度和连贯性显著提高。
KeySync的技术原理
- 两阶段生成框架:
- 关键帧生成:首先生成一组稀疏的关键帧,以捕捉音频中的主要唇部动作,确保每个关键帧准确反映音频内容,同时保持人物身份特征。
- 插值生成:在生成的关键帧之间进行插值,制作出平滑且时间连贯的中间帧,以实现流畅的唇部动作过渡。
- 潜扩散模型:此模型在低维潜空间中进行去噪,提高计算效率,通过逐步去除噪声,将随机噪声转化为结构化的视频数据。
- 掩码策略:通过计算面部关键点,设计覆盖下脸区域的掩码,保留必要的上下文信息,以避免表情泄露。在推理时,结合预训练的视频分割模型(如 SAM²),自动识别和排除遮挡物,确保生成的唇部区域与遮挡物自然融合。
- 音频与视频对齐:使用 HuBERT 音频编码器将原始音频转换为特征表示,并基于注意力机制将其嵌入视频生成模型中,确保生成的唇部动作与音频的完美对齐。
- 损失函数:结合潜空间损失与像素空间损失(L2 损失),以优化视频生成质量,确保生成的唇部区域与音频对齐。
KeySync的项目地址
- 项目官网:https://antonibigata.github.io/KeySync/
- GitHub仓库:https://github.com/antonibigata/keysync
- HuggingFace模型库:https://huggingface.co/toninio19/keysync
- arXiv技术论文:https://arxiv.org/pdf/2505.00497
- 在线体验Demo:https://huggingface.co/spaces/toninio19/keysync-demo
KeySync的应用场景
- 自动配音:广泛应用于影视、广告等多语言内容制作,显著提升配音与唇部动作的对齐效果。
- 虚拟形象:为虚拟角色生成同步的唇部动作,增强其真实感和表现力。
- 视频会议:优化远程沟通中的唇部同步,提升用户的交互体验。
- 无障碍内容:帮助听力障碍人士更好地理解视频内容,提升信息获取的便利性。
- 内容修复:对视频中的唇部动作进行修复或替换,提升整体内容的质量。
常见问题
- KeySync支持哪些格式的音频和视频? KeySync支持多种常见的音频和视频格式,具体格式可在项目官网查看。
- 使用KeySync需要什么样的硬件配置? 推荐使用具备较高性能的GPU以确保最佳的运行效率和生成质量。
- KeySync提供的输出视频质量如何? KeySync生成的视频质量高达512×512像素,图像清晰且动作流畅。
- 如何获取KeySync的最新更新和功能? 用户可以通过关注项目的GitHub仓库和官网获取最新的更新信息。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...