本文提出了一种用于协同控制的精细控制可控图像动画框架。
原标题:应用(生成&克隆&迁移&编辑)全搞定!阿里通义提出动画框架Perception-as-Control
文章来源:智猩猩GenAI
内容字数:11562字
Perception-as-Control: 精细化可控图像动画框架
本文介绍了一种名为Perception-as-Control的图像动画框架,该框架能够实现对摄像机和物体的精细化协同控制,突破了现有方法在控制粒度和三维感知方面的不足,从而支持多种相关的应用,例如生成、克隆、迁移和编辑。
1. 现有方法的挑战
现有的图像动画方法在控制摄像机和物体时面临以下挑战:
协同控制难题:难以实现摄像机和物体的协同控制,容易产生冲突。
控制粒度不足:缺乏精细化的控制能力,难以满足复杂的动画需求。
三维感知不足:表示通常缺乏3D感知,导致局部区域在同时控制摄像机和物体时出现控制冲突。
2. Perception-as-Control框架
为了解决上述问题,本文提出了Perception-as-Control框架,其核心思想是利用3D感知表示来促进精细化的协同控制。该表示能够被修改和感知,从而将用户意图转化为空间对齐的控制信号。
该框架主要包含以下几个关键技术:
3D感知表示:通过重构3D场景,使用单位球体简化动态部分和静态部分,生成反映和空间关系的感知结果。静态部分用世界包络体表示,动态部分用单位球体表示。
轻量化双编码器:分别对摄像机和物体的控制信号进行编码,确保控制信号与参考图像对齐,提高控制的灵活性。
扩散模型:利用基于U-Net的架构,将外观信息与信息结合,用于生成目标动画。采用三阶段训练策略,平衡相机和物体控制,并实现精细化物体控制。
数据管道与训练策略:自动化处理真实视频数据,采用分阶段训练策略,支持多种相关任务。
3. 框架效果
Perception-as-Control框架取得了显著的效果:
精细化控制:能够实现摄像机和物体的协同控制,避免控制冲突。
视觉一致性:通过3D感知表示,确保信号与生成的动画帧空间对齐,提升动画质量。
任务统一性:支持各种相关的视频生成任务,具备高度的灵活性和适应性。
性能优越:实验结果表明,该框架在多个任务中均优于现有方法,实现更精确的控制与更高质量的动画效果。
4. 实验与应用
实验使用了RealEstate10K和WebVid10M数据集进行训练。结果表明,Perception-as-Control能够有效地进行仅相机控制、仅物体控制以及协同控制。此外,该框架还能够应用于生成、克隆、迁移和编辑等多种任务。
5. 结论
Perception-as-Control框架提出了一种用于协同控制的精细化可控图像动画方法,通过3D感知表示实现了对摄像机和物体的精确且灵活的控制,并支持多种相关的应用,为图像动画领域带来了显著的进步。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,专注于生成式人工智能。