EDTalk

EDTalk – 上海交大联合网易推出高效解耦的情感说话头像合成模型

EDTalk是什么

EDTalk是由上海交通大学与网易共同研发的一种音频驱动唇部同步模型。该技术能够控制嘴型、头部姿态和情感表情。用户只需上传一张照片、一段音频及一段参考视频，即可让照片中的人物进行口语表达，并支持定制情感，如快乐、愤怒和悲伤等。EDTalk通过三个轻量级模块将面部动态分解为表示嘴型、姿态和情感的潜在空间，每个空间由一组可学习的基向量构成，其线性组合定义特定的动作。这种高效的解耦训练机制不仅提升了训练效率，还降低了资源消耗，初学者也能轻松上手，探索创新应用。

EDTalk

EDTalk的主要功能

音频驱动唇部同步：通过上传的图片和音频，EDTalk可以驱动图片中的人物进行口语表达，实现嘴型的精准同步。
自定义情感表达：EDTalk支持用户自定义情感，如快乐、愤怒和悲伤，从而使合成视频中的人物表情与音频情绪高度一致。
Audio-to-Motion模块：该模块能够根据音频输入自动生成与音频节奏相匹配的嘴唇动作及符合语境的表情。
支持视频和音频输入：EDTalk能够在视频和音频输入下生成高度精准的情感表达头像。

EDTalk的技术原理

高效解耦框架：EDTalk利用三个轻量级模块将面部动态分解为三个的潜在空间，分别表示嘴型、头部姿态和情感表情。这种解耦技术使得对面部动作的控制可以进行，互不干扰。
可学习的基向量表征：每个潜在空间由一组可学习的基向量构成，这些基向量的线性组合能够定义特定的动作。这种设计使得EDTalk能够灵活地合成具有特定嘴型、姿态和表情的讲话人头像视频。
正交性和高效训练策略：为确保各空间之间的性并加快训练速度，EDTalk在基向量之间进行了正交处理，设计了一种高效的训练策略，将动作责任分配给每个空间，避免依赖外部知识。