FaceShot – 同济大合上海 AI Lab等推出的肖像动画生成框架
FaceShot是什么
FaceShot是由同济大学、上海 AI Lab和南京理工大合开发的一款创新型肖像动画生成框架。该系统采用外观引导的地标匹配模块和基于坐标的地标重定位模块,能够为多种角色生成准确且稳定的地标序列。利用潜在扩散模型的语义关联性,FaceShot能够跨越不同角色类型生成丰富的面部动作序列。通过将生成的地标序列输入到预训练的地标驱动动画模型中,FaceShot能够生成高质量的动画视频。它突破了对真实肖像地标的依赖,适用于任何风格化角色及驱动视频,或作为插件与其他地标驱动动画模型兼容使用,大幅提升整体性能。
FaceShot的主要功能
- 角色动画生成:为各种角色类型生成自然流畅的面部动画,同时保留角色的独特特征。
- 跨领域动画:支持将人类视频驱动的动画扩展到非人类角色(如玩具、动物等),拓宽了肖像动画的应用范围。
- 无需训练:无需对每个角色或驱动视频进行额外训练或调整,即可直接生成高质量动画。
- 兼容性:能够作为插件与任何地标驱动的动画模型无缝集成。
FaceShot的技术原理
- 外观引导的地标匹配模块:基于潜在扩散模型的语义关系,结合外观先验知识,为任意角色生成精准的面部地标。通过DDIM逆过程从参考和目标图像中提取扩散特征,并利用图像提示减少不同领域间的外观差异。采用余弦距离进行地标匹配,确保地标在语义上的一致性,并引入外观画廊进一步优化匹配效果。
- 基于坐标的地标重定位模块:通过坐标系变换捕捉驱动视频中的微小面部动作,从而生成与之对齐的地标序列。该模块分为全局和局部两个阶段,全局负责面部的整体平移与旋转,而局部则分别处理眼睛、嘴巴、鼻子、眉毛及面部边界等部位的相对和点重定位。基于简单的坐标变换公式,该模块能够精确捕捉面部的全局和局部,生成稳定的地标序列。
- 地标驱动的动画模型:该模块将生成的地标序列输入预训练的动画模型(如MOFA-Video),生成最终动画视频。通过将地标序列作为附加条件输入到动画模型的U-Net中,确保模型能够精确跟踪地标序列中的。基于这种方式,动画模型能够使用地标序列生成与驱动视频一致的动画效果,保持角色的视觉身份,从而实现高质量的肖像动画生成。
FaceShot的项目地址
- 项目官网:https://faceshot2024.github.io/faceshot/
- GitHub仓库:https://github.com/open-mmlab/FaceShot
- arXiv技术论文:https://arxiv.org/pdf/2503.00740
FaceShot的应用场景
- 影视娱乐:为电影和电视剧中的角色创造生动的动画,增强视觉体验。
- 游戏开发:快速生成游戏角色动画,提高表现力和趣味性。
- 教育领域:使教育内容更加生动,提升学生学习兴趣和课堂互动性。
- 广告营销:生成品牌吉祥物动画,增强品牌形象和用户参与感。
- VR/AR应用:生成虚拟角色动画,提升用户的沉浸感和互动体验。
常见问题
- FaceShot适合哪些类型的角色动画? FaceShot能够处理多种角色,从真实人类到动物、玩具等非人类角色皆可。
- 使用FaceShot是否需要额外的训练? 不需要,FaceShot的设计旨在无需针对每个角色或视频进行额外训练,即可生成高质量动画。
- 如何将FaceShot集成到现有的动画工作流中? FaceShot可作为插件与任何地标驱动的动画模型无缝集成,方便用户使用。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...