Perception-as-Control

Perception-as-Control – 阿里通义实验室推出的图像动画框架

Perception-as-Control是什么

Perception-as-Control是阿里巴巴通义实验室推出的一种先进图像动画框架，旨在根据用户的需求实现对的精细控制。该框架通过构建3D感知表示，将相机和物体的转化为直观且一致的视觉效果，利用感知结果作为控制信号，支持多种与相关的视频合成任务。Perception-as-Control采用基于U-Net架构的扩散模型，结合参考图像的外观信息与控制信号，生成可控的图像动画。此外，该框架实施了三阶段训练策略，以平衡相机与物体的控制，展现出卓越的表现。

Perception-as-Control的主要功能

细致的协同控制：实现相机与物体的协同控制，使用户能够以细致的方式调整动画中的各个元素，从而精准地操控场景中的物体及相机视角的变化。
多样化的相关视频合成任务：支持多种相关的视频合成任务，包括图像基础的生成、视频克隆、转移及编辑。
- 生成：根据用户提供的参考图像和2D轨迹生成动画。
- 克隆：复刻源视频中的相机和物体。
- 转移：将源视频中的局部迁移到参考图像中不同位置和大小的对象上。
- 编辑：用户提供分割掩码，编辑掩码内的。
3D感知表示：通过构建3D感知表示，将复杂的3D场景简化为关键对象部分（以单位球表示）和世界包络，实现直观且一致的视觉效果。

Perception-as-Control的技术原理

3D感知表示：将3D场景简化为关键对象部分（以单位球表示）和世界包络，利用3D点跟踪和视觉里程计技术捕捉局部物体与全局相机。
网络架构：基于去噪U-Net架构，采用两个轻量级编码器分别编码相机和物体的控制信号，避免RGB级别的干扰，并通过融合模块合并编码信号。
参考图像注入：ReferenceNet将参考图像的外观信息注入生成过程，确保生成的视频保留参考图像的特定外观。
三阶段训练策略：
- 第一阶段：仅训练相机编码器，处理只包含相机的视频剪辑。
- 第二阶段：引入物体编码器和融合模块，处理包含相机和物体的视频剪辑。
- 第三阶段：基于稀疏单位球实现精细的物体控制，自适应确定每个渲染点的控制范围。
扩散模型：利用图像扩散概率模型的基本原理，采用去噪U-Net架构生成视频，优化目标为最小化预测噪声与实际噪声之间的差异，条件输入包括参考图像和控制信号。