Perception-as-Control – 阿里通义实验室推出的图像动画框架
Perception-as-Control是什么
Perception-as-Control是阿里巴巴通义实验室推出的一种先进图像动画框架,旨在根据用户的需求实现对的精细控制。该框架通过构建3D感知表示,将相机和物体的转化为直观且一致的视觉效果,利用感知结果作为控制信号,支持多种与相关的视频合成任务。Perception-as-Control采用基于U-Net架构的扩散模型,结合参考图像的外观信息与控制信号,生成可控的图像动画。此外,该框架实施了三阶段训练策略,以平衡相机与物体的控制,展现出卓越的表现。
Perception-as-Control的主要功能
- 细致的协同控制:实现相机与物体的协同控制,使用户能够以细致的方式调整动画中的各个元素,从而精准地操控场景中的物体及相机视角的变化。
- 多样化的相关视频合成任务:支持多种相关的视频合成任务,包括图像基础的生成、视频克隆、转移及编辑。
- 生成:根据用户提供的参考图像和2D轨迹生成动画。
- 克隆:复刻源视频中的相机和物体。
- 转移:将源视频中的局部迁移到参考图像中不同位置和大小的对象上。
- 编辑:用户提供分割掩码,编辑掩码内的。
- 3D感知表示:通过构建3D感知表示,将复杂的3D场景简化为关键对象部分(以单位球表示)和世界包络,实现直观且一致的视觉效果。
Perception-as-Control的技术原理
- 3D感知表示:将3D场景简化为关键对象部分(以单位球表示)和世界包络,利用3D点跟踪和视觉里程计技术捕捉局部物体与全局相机。
- 网络架构:基于去噪U-Net架构,采用两个轻量级编码器分别编码相机和物体的控制信号,避免RGB级别的干扰,并通过融合模块合并编码信号。
- 参考图像注入:ReferenceNet将参考图像的外观信息注入生成过程,确保生成的视频保留参考图像的特定外观。
- 三阶段训练策略:
- 第一阶段:仅训练相机编码器,处理只包含相机的视频剪辑。
- 第二阶段:引入物体编码器和融合模块,处理包含相机和物体的视频剪辑。
- 第三阶段:基于稀疏单位球实现精细的物体控制,自适应确定每个渲染点的控制范围。
- 扩散模型:利用图像扩散概率模型的基本原理,采用去噪U-Net架构生成视频,优化目标为最小化预测噪声与实际噪声之间的差异,条件输入包括参考图像和控制信号。
Perception-as-Control的项目地址
- 项目官网:https://chen-yingjie.github.io/projects/Perception-as-Control/
- GitHub仓库:https://github.com/chen-yingjie/Perception-as-Control
- arXiv技术论文:https://arxiv.org/pdf/2501.05020
Perception-as-Control的应用场景
- 电影与视频特效:生成具有特定的动画场景,模仿现有视频中的复杂,或将一个角色的转移到另一个角色上。
- 游戏开发:为游戏角色和物体创造自然且可控的动画,提升游戏的沉浸感与动态效果。
- 虚拟现实(VR)和增强现实(AR):在VR环境中生成实时动画反馈,增强用户的互动体验;在AR应用中将虚拟物体动画与现实场景相结合。
- 广告与营销:生成引人注目的动态广告和品牌推广动画,提升品牌形象和记忆点。
- 教育与培训:生成科学实验动画和技能培训模拟动画,帮助学生和学员更好地理解和掌握知识与技能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...