Magic Mirror,一种zero-shot身份保持视频生成框架。
原标题:贾佳亚团队新作MagicMirror:生成身份一致且高质量个性化视频,效果惊艳!
文章来源:智猩猩GenAI
内容字数:10121字
Magic Mirror: 零样本身份保持视频生成框架
本文介绍了Magic Mirror,一个无需微调即可生成身份一致性视频的新型框架。它解决了现有视频生成方法在身份一致性和自然动态性之间难以平衡的问题,并克服了数据稀缺的挑战。
1. 问题与方案
当前视频生成方法存在以下问题:难以平衡身份一致性和自然动态性;需要针对特定人物进行微调;生成的视频动态性不足;两阶段方法在长序列生成中缺乏稳定性;现有模型在文本-视频对齐优化中牺牲了空间保真度;高质量、身份一致的图像-视频训练数据稀缺。Magic Mirror提出了一种单阶段框架,通过三个关键组件解决这些问题:
身份一致的合成数据初步训练:利用合成数据进行预训练,培养模型的稳健身份保持能力。
视频数据细化训练:在真实视频数据上进行微调,确保时序一致性。
CogVideoX框架集成:将模型集成到CogVideoX框架中,利用其强大的视频生成能力。
2. 核心技术
Magic Mirror的核心技术包括:
条件自适应归一化(CAN):高效融合身份信息,提供注意力引导和特征分布引导,提升身份模态特征聚合。
双分支面部特征提取器:同时捕捉高层次身份特征和参考特定的结构信息。
轻量级跨模态适配器:有效融合面部嵌入和文本信息。
两阶段训练策略:先进行图像预训练,再进行视频微调,提高模型的鲁棒性和时间一致性。
数据合成策略:利用身份保留模型生成高质量图像-视频对,解决数据稀缺问题。
3. 实验结果
实验结果表明,Magic Mirror在身份一致性和自然动态性之间取得了良好平衡。在VBench等基准测试中,其在动态度、文本提示一致性、Inception Score以及身份保持方面均优于现有方法。用户研究也证实了其在感知质量上的优势。
4. 模型架构
Magic Mirror采用双分支框架,分别提取高层次身份特征和面部结构信息。这些特征通过轻量级跨模态适配器与文本和视频特征融合,并结合CAN进行处理,最终生成身份一致的视频。
5. 结论
Magic Mirror是一个高效的零样本身份保持视频生成框架,它在保持身份一致性的同时,能够生成高质量、动态自然的视频,为个性化视频生成提供了新的途径。未来工作将关注多身份定制化生成以及对更细粒度属性的保持。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。