FlexiAct – 清华联合腾讯推出的动作迁移模型
什么是FlexiAct
FlexiAct是由清华大学与腾讯ARC实验室联合研发的一款先进动作迁移模型。它能够在给定目标图像的条件下,将参考视频中的动作精准地迁移到目标主体身上。即使在空间结构差异显著或跨域异构场景中,FlexiAct依然能够实现动作的高度适配与外观的一致性。通过引入轻量化的RefAdapter模块和创新的频率感知动作提取(FAE)机制,该模型突破了传统方法在布局、视角及骨架结构差异方面的限制,确保目标身份特征得以保留。FlexiAct在人物与动物动作迁移任务中均表现卓越,具备广泛的应用潜力。
FlexiAct的核心功能
- 跨主体动作迁移:支持将动作从一个人物迁移到另一个人物,甚至实现从人类到动物的动作转移,灵活多样。
- 外观一致性保持:在动作迁移过程中,确保目标主体的外观特征(如服饰、发型等)与原始目标图像高度吻合,避免视觉失真。
- 空间结构灵活适配:面对参考视频与目标图像在布局、视角及骨架结构上的差异,依然能够实现自然流畅的动作转换。
FlexiAct的技术亮点
- RefAdapter(空间结构适配模块):这一轻量级适配器专门用于弥合参考视频帧与目标图像之间的空间结构差异。训练过程中,随机选取视频帧作为条件输入,增强模型对多样姿态、布局及视角的适应能力,同时保证外观的一致性。通过注入少量可训练参数(例如LoRA模块),在CogVideoX-I2V模型的MMDiT层中实现灵活空间调整,避免传统技术中的严格约束。
- 频率感知动作提取(FAE):FAE是一种创新的动作提取方法,直接在去噪过程阶段完成动作信息的提取,无需依赖的时空网络结构。该模块基于观察到模型在不同去噪时间步对信息(低频)和外观细节(高频)的关注差异,动态调整注意力权重,优先在早期时间步提取动作特征,在后期时间步则聚焦细节还原,实现了动作提取与控制的精准平衡。
产品官网与资源
- 官方网站:https://shiyi-zh0408.github.io/projectpages/FlexiAct/
- GitHub代码库:https://github.com/shiyi-zh0408/FlexiAct
- HuggingFace模型库:https://huggingface.co/shiyi0408/FlexiAct
- 技术论文:https://arxiv.org/pdf/2505.03730
FlexiAct的应用领域
- 影视制作:帮助创作者快速生成逼真角色动作,显著降低拍摄成本,提高制作效率。
- 游戏开发:为游戏角色赋予丰富多样的动作表现,增强沉浸式游戏体验。
- 广告营销:支持虚拟代言人动作生成,提升广告的吸引力与表现力。
- 教育培训:用于制作教学示范与康复训练动作,助力学习与身体恢复。
- 娱乐互动:激发用户创作趣味性视频内容,提升互动娱乐的趣味性和参与度。
常见问题解答
- 问:FlexiAct支持哪些类型的动作迁移?
答:FlexiAct不仅支持人物之间的动作迁移,还能实现人物与动物之间的跨主体动作转移,适用范围广泛。 - 问:模型如何保证动作迁移后的外观一致性?
答:通过设计轻量级的RefAdapter模块和频率感知动作提取机制,模型在保持动作准确的同时,确保目标主体的服装、发型等外观特征不被破坏。 - 问:FlexiAct能否适应不同视角和骨架结构的差异?
答:是的,模型特别针对布局、视角及骨架结构的差异进行了优化,能够实现自然且流畅的动作迁移。 - 问:是否有开源代码和预训练模型可供使用?
答:FlexiAct提供了公开的GitHub代码库和HuggingFace模型库,方便研究者和开发者进行进一步探索和应用。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...