HiFiVFS：高保真视频换脸技术引领视觉

AI工具1年前 (2024)发布 AI工具集

HiFiVFS（高保真视频换脸）是腾讯与VIVO公司联合推出的一款先进的视频换脸框架。其基于Stable Video Diffusion（稳定视频扩散，简称SVD）框架，利用多帧输入和时间注意力机制来确保生成视频的流畅性和稳定性。HiFiVFS在训练过程中采用了细粒度属性学习（FAL）和详细身份学习（DIL）技术，进一步增强了对视频中属性的控制和身份的相似性。

HiFiVFS是什么

HiFiVFS（高保真视频换脸）是腾讯与VIVO公司共同开发的高保真视频换脸框架，旨在通过稳定的技术手段实现高质量的人脸替换。该框架依托Stable Video Diffusion（SVD）技术，结合多帧输入和时间注意力机制，确保生成的视频在时序上的一致性。通过训练引入细粒度属性学习（FAL）和详细身份学习（DIL），HiFiVFS大幅提升了属性控制和身份相似度的效果。

HiFiVFS：高保真视频换脸技术引领视觉革命

HiFiVFS的主要功能

高保真换脸效果：能够将源图像中的人脸特征无缝地替换到目标视频中，同时保持目标视频的姿势、表情、光照和背景等属性。
时间稳定性：通过时间注意力机制，处理多帧视频，确保视频帧之间的连贯性，避免了传统换脸技术中的时间抖动现象。
细致的属性控制：利用细粒度属性学习（FAL），提取和调控视频中的微小属性，如光照效果和妆容，这些在以往技术中往往难以实现。
增强的身份相似性：通过详细身份学习（DIL）技术，提升换脸后的人脸与源图像之间的相似性。

HiFiVFS的技术原理

基于SVD框架：该框架专为高分辨率的文本到视频及图像到视频合成而设计，提供了强大的技术支持。
多帧输入处理：与传统方法不同，HiFiVFS处理多帧视频，有助于保持视频内容的时序稳定。
时间注意力机制：通过此机制，增强了视频帧之间的相关性，进一步提升了视频的稳定性。
细粒度属性学习（FAL）：
- 属性解耦：采用身份去敏感化与对抗学习的方式，FAL能够提取出于身份的细粒度属性特征。
- 增强属性控制：FAL还通过对抗学习提升了对属性的调控能力，使换脸后的视频更好地保留目标视频的特征。
详细身份学习（DIL）：
- 身份特征提取：DIL利用深层面部识别模型，获取更为详尽的面部身份信息。
- 提升身份相似性：通过注入这些详细的身份特征，DIL显著提高了换脸结果与源身份之间的相似度。