应用(生成&克隆&迁移&编辑)全搞定!阿里通义提出动画框架Perception-as-Control

本文提出了一种用于协同控制的精细控制可控图像动画框架。

运动应用(生成&克隆&迁移&编辑)全搞定!阿里通义提出动画框架Perception-as-Control

原标题:应用(生成&克隆&迁移&编辑)全搞定!阿里通义提出动画框架Perception-as-Control
文章来源:智猩猩GenAI
内容字数:11562字

Perception-as-Control: 精细化可控图像动画框架

本文介绍了一种名为Perception-as-Control的图像动画框架,该框架能够实现对摄像机和物体的精细化协同控制,突破了现有方法在控制粒度和三维感知方面的不足,从而支持多种相关的应用,例如生成、克隆、迁移和编辑。

1. 现有方法的挑战

现有的图像动画方法在控制摄像机和物体时面临以下挑战:

  1. 协同控制难题:难以实现摄像机和物体的协同控制,容易产生冲突。

  2. 控制粒度不足:缺乏精细化的控制能力,难以满足复杂的动画需求。

  3. 三维感知不足:表示通常缺乏3D感知,导致局部区域在同时控制摄像机和物体时出现控制冲突。

2. Perception-as-Control框架

为了解决上述问题,本文提出了Perception-as-Control框架,其核心思想是利用3D感知表示来促进精细化的协同控制。该表示能够被修改和感知,从而将用户意图转化为空间对齐的控制信号。

该框架主要包含以下几个关键技术:

  1. 3D感知表示:通过重构3D场景,使用单位球体简化动态部分和静态部分,生成反映和空间关系的感知结果。静态部分用世界包络体表示,动态部分用单位球体表示。

  2. 轻量化双编码器:分别对摄像机和物体的控制信号进行编码,确保控制信号与参考图像对齐,提高控制的灵活性。

  3. 扩散模型:利用基于U-Net的架构,将外观信息与信息结合,用于生成目标动画。采用三阶段训练策略,平衡相机和物体控制,并实现精细化物体控制。

  4. 数据管道与训练策略:自动化处理真实视频数据,采用分阶段训练策略,支持多种相关任务。

3. 框架效果

Perception-as-Control框架取得了显著的效果:

  1. 精细化控制:能够实现摄像机和物体的协同控制,避免控制冲突。

  2. 视觉一致性:通过3D感知表示,确保信号与生成的动画帧空间对齐,提升动画质量。

  3. 任务统一性:支持各种相关的视频生成任务,具备高度的灵活性和适应性。

  4. 性能优越:实验结果表明,该框架在多个任务中均优于现有方法,实现更精确的控制与更高质量的动画效果。

4. 实验与应用

实验使用了RealEstate10K和WebVid10M数据集进行训练。结果表明,Perception-as-Control能够有效地进行仅相机控制、仅物体控制以及协同控制。此外,该框架还能够应用于生成、克隆、迁移和编辑等多种任务。

5. 结论

Perception-as-Control框架提出了一种用于协同控制的精细化可控图像动画方法,通过3D感知表示实现了对摄像机和物体的精确且灵活的控制,并支持多种相关的应用,为图像动画领域带来了显著的进步。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,专注于生成式人工智能。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止