KeySync

KeySync – 帝国理工联合弗罗茨瓦夫大学推出的口型同步框架

KeySync

KeySync 是由帝国理工学院和弗罗茨瓦夫大合开发的高分辨率口型同步框架,旨在精准将输入的音频与视频中的唇部动作进行对齐。该系统采用两阶段生成方法,首先提取音频中的关键唇部动作生成关键帧,然后通过插值技术平滑过渡至中间帧,确保口型与声音的完美匹配。

KeySync是什么

KeySync 是一款高分辨率口型同步框架,由帝国理工学院与弗罗茨瓦夫大学共同推出,能够将输入音频与视频中的口型动作准确对齐。该系统采用了两阶段框架,首先生成关键帧以捕捉音频中的主要唇部动作,接着通过插值生成流畅的过渡帧。此外,KeySync 引入了创新的掩码策略,有效减少了输入视频中的表情泄露,并使用视频分割模型自动处理遮挡问题。相比其他现有技术,KeySync 在视觉质量、时间连贯性以及唇部同步的准确性方面表现更为优异,广泛适用于自动配音等实际场景。

KeySync的主要功能

  • 高分辨率口型同步:生成与输入音频高度对齐的高清(512×512)视频,适应多种实际应用。
  • 减少表情泄露:有效降低输入视频中的表情泄露,提升整体同步效果。
  • 遮挡处理:在推理过程中自动识别并排除遮挡物(如手部、物体等),确保生成视频的自然性。
  • 提升视觉质量:在多个量化指标和用户研究中表现卓越,生成的视频清晰度和连贯性显著提高。

KeySync的技术原理

  • 两阶段生成框架
    • 关键帧生成:首先生成一组稀疏的关键帧,以捕捉音频中的主要唇部动作,确保每个关键帧准确反映音频内容,同时保持人物身份特征。
    • 插值生成:在生成的关键帧之间进行插值,制作出平滑且时间连贯的中间帧,以实现流畅的唇部动作过渡。
  • 潜扩散模型:此模型在低维潜空间中进行去噪,提高计算效率,通过逐步去除噪声,将随机噪声转化为结构化的视频数据。
  • 掩码策略:通过计算面部关键点,设计覆盖下脸区域的掩码,保留必要的上下文信息,以避免表情泄露。在推理时,结合预训练的视频分割模型(如 SAM²),自动识别和排除遮挡物,确保生成的唇部区域与遮挡物自然融合。
  • 音频与视频对齐:使用 HuBERT 音频编码器将原始音频转换为特征表示,并基于注意力机制将其嵌入视频生成模型中,确保生成的唇部动作与音频的完美对齐。
  • 损失函数:结合潜空间损失与像素空间损失(L2 损失),以优化视频生成质量,确保生成的唇部区域与音频对齐。

KeySync的项目地址

KeySync的应用场景

  • 自动配音:广泛应用于影视、广告等多语言内容制作,显著提升配音与唇部动作的对齐效果。
  • 虚拟形象:为虚拟角色生成同步的唇部动作,增强其真实感和表现力。
  • 视频会议:优化远程沟通中的唇部同步,提升用户的交互体验。
  • 无障碍内容:帮助听力障碍人士更好地理解视频内容,提升信息获取的便利性。
  • 内容修复:对视频中的唇部动作进行修复或替换,提升整体内容的质量。

常见问题

  • KeySync支持哪些格式的音频和视频? KeySync支持多种常见的音频和视频格式,具体格式可在项目官网查看。
  • 使用KeySync需要什么样的硬件配置? 推荐使用具备较高性能的GPU以确保最佳的运行效率和生成质量。
  • KeySync提供的输出视频质量如何? KeySync生成的视频质量高达512×512像素,图像清晰且动作流畅。
  • 如何获取KeySync的最新更新和功能? 用户可以通过关注项目的GitHub仓库和官网获取最新的更新信息。
阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...