FantasyID

AI工具1个月前更新 AI工具集
517 0 0

FantasyID – 阿里联合北邮大学推出的身份保持视频生成框架

FantasyID是什么

FantasyID 是由阿里巴巴集团与北京邮电大合推出的创新身份保持视频生成框架(IPT2V)。该系统基于增强的人脸知识,旨在生成高质量且身份一致的视频。FantasyID运用了扩散变换器(Diffusion Transformers)技术,并结合3D面部几何先验知识,以确保在视频合成过程中面部结构的稳定性和合理性。此外,FantasyID采用了多视角人脸增强策略,避免了简单复制参考人脸的现象,提升了面部表情和头部姿态的动态变化。通过可学习的分层感知注入机制,2D和3D特征被选择性地融入到每一层的扩散模型中,从而实现身份保留与动态表现之间的平衡。

FantasyID

FantasyID的主要功能

  • 身份保留:确保生成的视频中人物的面部特征与输入的参考图像高度一致,即使在复杂的动作和表情变化中,身份相似性依然保持。
  • 动态增强:丰富面部表情及头部姿态的多样性,避免生成视频出现“复制粘贴”的现象。
  • 高质量视频生成:通过结合3D面部几何信息和2D视觉特征,生成结构稳定且细节丰富的视频,同时保持视频的时空连贯性。
  • 无需微调:在生成过程中,无需针对每个输入图像进行额外模型调整,从而实现高效、灵活的身份保留视频生成,适应大规模应用需求。

FantasyID的技术原理

  • 3D面部几何先验:基于DECA框架,从输入的人脸图像中提取3D面部结构(如形状点云),为视频生成提供稳定的几何约束,确保动态变化中的面部结构稳定性。
  • 多视角人脸增强:构建多角度人脸集合,从不同视角采集人脸图像,以增强模型对2D面部外观特征的理解,提升动态表现,避免生成视频中的单一性。
  • 特征融合:通过融合变换器将提取的2D视觉特征与3D几何特征结合,生成综合面部描述符,以指导视频生成。
  • 分层感知信号注入:针对扩散变换器的层次特性,设计可学习的分层感知机制,将融合特征有选择地注入不同层次,平衡身份保留与动态表现。
  • 扩散模型:基于扩散模型的生成框架,通过逐步去噪的过程,从噪声中重建出符合文本描述和身份特征的视频内容。

FantasyID的项目地址

FantasyID的应用场景

  • 个性化虚拟形象:通过生成与用户身份一致的虚拟形象,应用于虚拟社交、元宇宙和游戏等领域。
  • 虚拟内容创作:生成动态视频内容,支持影视、广告及短视频制作,降低创作成本。
  • 虚拟客服与数字人:创建自然、逼真的数字人形象,用于在线客服和智能助手,提升用户交互体验。
  • 虚拟试妆与试衣:结合电子商务和美容行业,生成试妆或试衣的动态视频,优化购物体验。
  • 互动式教育:生成教师或培训师的动态视频,用于在线课程和模拟场景,增强教学效果。
阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...