上海交大计算机系在读博士谭帅主讲~
原标题:ECCV 2024 Oral!上交大联合网易伏羲开源用于对话人脸生成的高效解耦框架EDTalk | 一作谭帅博士主讲预告
文章来源:智猩猩GenAI
内容字数:2898字
高效解耦的可控对话人脸生成:EDTalk框架详解
本文总结了上海交通大学谭帅博士在智猩猩AI新青年讲座第262讲中关于高效解耦的可控对话人脸生成框架EDTalk的精彩分享。该框架由上海交通大合网易伏羲共同研发,并已开源,其论文成果已被ECCV 2024接收并作口头报告。
1. 对话人脸生成技术的不足
传统的说话头部动画技术在模拟人物嘴型和基本表情方面存在局限性,难以精细控制并实现真实的情感表达。这限制了其在虚拟人物制作和应用中的发展。
2. EDTalk框架:高效解耦的可控对话人脸生成
EDTalk框架旨在解决上述问题,它通过高效的解耦策略,实现对嘴型、头部姿势和情感表达的控制。该框架的核心在于将面部动态分解到三个的潜在空间,分别对应嘴型、姿势和表情,每个空间都有一组可学习的基向量,其线性组合定义特定的动作。
3. 解耦策略:控制嘴型、姿势和表情
EDTalk框架的关键创新在于其解耦策略。通过执行基向量之间的正交性,并设计高效的训练策略,确保三个潜在空间的操作,互不干扰。这种设计不仅提高了控制精度,也加快了训练速度。值得一提的是,该方法无需依赖外部知识,即可赋予每个空间其特定的方向。
4. 音频动作模块:音频驱动的对话人脸合成
为了实现音频驱动的对话人脸合成,EDTalk框架设计了音频到动作模块。该模块利用学习到的基向量库,将音频输入转化为相应的嘴型、姿势和表情动作,从而生成逼真的对话人脸动画。学习到的基向量存储在相应的库中,实现了与音频输入共享视觉先验。
5. EDTalk框架的优势
EDTalk框架具有以下优势:轻量级模块设计,提高了效率;控制不同面部动作,提升了可控性;适应不同的输入模式(视频或音频),增强了应用性和娱乐性;无需外部知识,简化了训练过程。
6. 其他相关工作
谭帅博士还介绍了其团队的其他相关工作,包括EMMN、Say anything with any style和Style2talker等,这些工作都致力于提升对话人脸生成的质量和多样性,进一步丰富了数字人技术的研究成果。
7. 总结
EDTalk框架为对话人脸生成领域带来了新的突破,其高效的解耦策略和灵活的应用性,为虚拟人物的制作和应用提供了强大的技术支持。谭帅博士及其团队的贡献推动了数字人技术的发展,为构建更逼真、更具情感表达力的虚拟人物奠定了坚实的基础。该框架的开源也方便了更多研究者进行进一步的研究和应用。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。