DICE-Talk

DICE-Talk – 复旦联合腾讯优图推出的情感化动态肖像生成框架

DICE-Talk

DICE-Talk是一个由复旦大学与腾讯优图实验室共同开发的创新性动态肖像生成框架，旨在生成生动情感表达且身份特征保持一致的动态肖像视频。通过引入情感关联增强模块，DICE-Talk能够有效捕捉不同情感之间的关系，显著提高情感生成的准确性和多样性。

DICE-Talk是什么

DICE-Talk是复旦大学与腾讯优图实验室联合推出的一种新型情感化动态肖像生成框架，能够生成具有生动情感表达并保持身份一致性的动态肖像视频。该框架通过情感关联增强模块，利用情感库捕获情感之间的关系，从而提升生成情感的准确性和多样性。DICE-Talk设计了情感判别目标，确保在生成过程中情感的一致性。实验结果表明，DICE-Talk在MEAD和HDTF数据集上在情感准确性、口型匹配及视觉质量等方面均优于现有技术。

DICE-Talk的主要功能

情感化动态肖像生成：基于输入的音频和参考图像，生成具有特定情感表达的动态肖像视频。
身份保持：在生成过程中，确保输入参考图像的身份特征不被泄露或混淆。
高质量视频生成：生成的视频在视觉质量、唇部同步及情感表达方面都达到较高标准。
泛化能力：能够适应未见过的身份和情感组合，体现出良好的泛化能力。
用户控制：用户可以输入特定的情感目标，调控生成视频的情感表达，实现高度的个性化定制。
多模态输入：支持多种输入形式，包括音频、视频和参考图像。

DICE-Talk的技术原理

解耦身份与情感：基于跨模态注意力机制联合建模音频和视觉情感线索，将情感表示为身份无关的高斯分布。通过对比学习（如InfoNCE损失）训练情感嵌入器，确保相同情感的特征在嵌入空间聚集，而不同情感的特征则相对分散。
情感关联增强：情感库作为可学习模块，存储多种情感的特征表示。通过向量量化和基于注意力的特征聚合，学习情感之间的关系，以便更好地生成其他情感。
情感判别目标：在扩散模型生成过程中，通过情感判别器确保生成视频的情感一致性。情感判别器与扩散模型共同训练，确保生成的视频在情感表达上与目标情感一致，同时保持视觉质量和唇部同步。
扩散模型框架：从高斯噪声开始，逐步去噪生成目标视频。基于变分自编码器（VAE）将视频帧映射至潜在空间，并逐步引入高斯噪声，通过扩散模型去除噪声，生成目标视频。在去噪过程中，扩散模型结合参考图像、音频特征和情感特征，引导视频生成。