Perception-as-Control

AI工具1个月前发布 AI工具集
1 0 0

Perception-as-Control – 阿里通义实验室推出的图像动画框架

Perception-as-Control是什么

Perception-as-Control是阿里巴巴通义实验室推出的一种先进图像动画框架,旨在根据用户的需求实现对的精细控制。该框架通过构建3D感知表示,将相机和物体的转化为直观且一致的视觉效果,利用感知结果作为控制信号,支持多种与相关的视频合成任务。Perception-as-Control采用基于U-Net架构的扩散模型,结合参考图像的外观信息与控制信号,生成可控的图像动画。此外,该框架实施了三阶段训练策略,以平衡相机与物体的控制,展现出卓越的表现。

Perception-as-Control

Perception-as-Control的主要功能

  • 细致的协同控制:实现相机与物体的协同控制,使用户能够以细致的方式调整动画中的各个元素,从而精准地操控场景中的物体及相机视角的变化。
  • 多样化的相关视频合成任务:支持多种相关的视频合成任务,包括图像基础的生成、视频克隆、转移及编辑。
    • 生成:根据用户提供的参考图像和2D轨迹生成动画。
    • 克隆:复刻源视频中的相机和物体。
    • 转移:将源视频中的局部迁移到参考图像中不同位置和大小的对象上。
    • 编辑:用户提供分割掩码,编辑掩码内的。
  • 3D感知表示:通过构建3D感知表示,将复杂的3D场景简化为关键对象部分(以单位球表示)和世界包络,实现直观且一致的视觉效果。

Perception-as-Control的技术原理

  • 3D感知表示:将3D场景简化为关键对象部分(以单位球表示)和世界包络,利用3D点跟踪和视觉里程计技术捕捉局部物体与全局相机。
  • 网络架构:基于去噪U-Net架构,采用两个轻量级编码器分别编码相机和物体的控制信号,避免RGB级别的干扰,并通过融合模块合并编码信号。
  • 参考图像注入:ReferenceNet将参考图像的外观信息注入生成过程,确保生成的视频保留参考图像的特定外观。
  • 三阶段训练策略
    • 第一阶段:仅训练相机编码器,处理只包含相机的视频剪辑。
    • 第二阶段:引入物体编码器和融合模块,处理包含相机和物体的视频剪辑。
    • 第三阶段:基于稀疏单位球实现精细的物体控制,自适应确定每个渲染点的控制范围。
  • 扩散模型:利用图像扩散概率模型的基本原理,采用去噪U-Net架构生成视频,优化目标为最小化预测噪声与实际噪声之间的差异,条件输入包括参考图像和控制信号。

Perception-as-Control的项目地址

Perception-as-Control的应用场景

  • 电影与视频特效:生成具有特定的动画场景,模仿现有视频中的复杂,或将一个角色的转移到另一个角色上。
  • 游戏开发:为游戏角色和物体创造自然且可控的动画,提升游戏的沉浸感与动态效果。
  • 虚拟现实(VR)和增强现实(AR):在VR环境中生成实时动画反馈,增强用户的互动体验;在AR应用中将虚拟物体动画与现实场景相结合。
  • 广告与营销:生成引人注目的动态广告和品牌推广动画,提升品牌形象和记忆点。
  • 教育与培训:生成科学实验动画和技能培训模拟动画,帮助学生和学员更好地理解和掌握知识与技能。
阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...