DisPose：提升动画质量的智能人物图像控制技术

AI工具1年前 (2024)发布 AI工具集

DisPose是一项由北京大学、中国科学技术大学、清华大学和香港科技大学的研究团队共同开发的先进技术，旨在提升人物图像动画的质量。该技术通过从骨骼姿态和参考图像中提取有效的控制信号，实现了无需额外密集输入的动画效果。DisPose的核心在于将姿态控制分解为场引导和关键点对应，从而生成密集的场，以提供区域级的引导，同时具备对不同体型的良好泛化能力。

DisPose是什么

DisPose是一个创新的技术解决方案，它通过提取骨骼姿态和参考图像中的有效控制信号，显著提高人物图像动画的质量。该技术不依赖于额外的密集输入，能够将姿态控制有效分解为场引导与关键点对应，进而生成密集场以实现区域级别的引导，同时保持对不同体型的适应能力。DisPose还包括一个即插即用的混合ControlNet模块，旨在提升现有视频生成模型的质量和一致性。

DisPose的主要功能

场引导：从骨骼姿态生成密集场，提供区域级的引导，增强视频中的动作一致性。
关键点对应：提取与参考图像中的姿态关键点相关的扩散特征，确保身份信息的一致性。
即插即用模块：作为插件模块，能够无缝整合到现有的人物图像动画模型中，无需对现有模型参数进行修改。
质量与一致性提升：混合ControlNet模块提升生成视频的整体质量和视觉一致性。
无需额外密集输入：在不依赖额外密集输入（如深度图）的情况下工作，降低对参考角色和驱动视频间身体形状差异的敏感性。

DisPose的技术原理

场估计：
- 稀疏场：利用DWpose对骨骼姿态进行估计，通过关键点追踪位移，表示为轨迹图。
- 密集场：条件传播（CMP）基于稀疏场和参考图像，预测密集场，提供更精细的信号。
关键点特征提取：通过预训练的图像扩散模型提取参考图像的DIFT特征，并将这些特征与关键点相对应，形成关键点特征图。
混合ControlNet：设计了混合ControlNet，在训练过程中进行更新，无需冻结现有模型的其他部分，便于将场引导和关键点对应无缝整合到现有动画模型中。
特征融合：
- 通过特征融合层将稀疏和密集特征结合，生成最终的场引导信号。
- 基于多尺度点编码器将关键点特征与U-Net编码器的中间特征结合，增强特征的语义对应性。
控制信号集成：将场引导和关键点对应作为额外的控制信号，注入到潜在的视频扩散模型中，以生成准确的人物图像动画。