MTVCrafter

AI工具1年前 (2025)更新 AI工具集

MTVCrafter – 中科院联合中国电信等机构推出的人像动画生成框架

MTVCrafter

MTVCrafter是什么

MTVCrafter是由中国科学院深圳先进技术研究院计算机视觉与模式识别实验室与中国电信人工智能研究所等多个机构联合开发的一款创新型人类图像动画生成框架。它基于原始的3D序列实现高质量的动画制作。MTVCrafter采用4D标记化（4DMoT）技术，能够直接对3D数据进行建模，克服了传统方法中对2D渲染姿态图像的依赖，提供了更为先进的解决方案。此外，该框架引入了感知视频扩散Transformer（MV-DiT），通过独特的4D注意力机制和位置编码，有效利用4D标记作为动画生成的上下文。经过在TikTok基准测试中的表现，MTVCrafter取得了6.98的FID-VID成绩，领先于第二名方法达65%，展现出卓越的泛化能力和鲁棒性。

MTVCrafter的主要功能

高质量动画生成：能够直接对3D序列进行建模，创造出自然流畅且高质量的人类动画视频。
强大的泛化能力：支持未见和角色的泛化，包括单个及多个角色、全身及半身角色，适应多种风格（如动漫、像素艺术、水墨画及写实风格）。
精确的控制：通过4D标记化和注意力机制实现对序列的精确掌控，确保动画的准确性和一致性。
身份一致性保持：在动画生成的过程中，确保参考图像的身份特征不变，避免身份漂移或失真。

MTVCrafter的技术原理

4D标记化器（4DMoT）：4DMoT采用编码器-解码器结构，通过2D卷积和残差块处理时间（帧）和空间（关节）维度的数据，利用向量量化器将连续的特征映射到离散的标记空间，从而在统一的空间中表示，便于后续的动画生成。
感知视频扩散Transformer（MV-DiT）：设计了4D注意力机制，将4D标记与视觉标记（如视频帧）结合。基于4D旋转位置编码（RoPE），恢复由于标记化和展平而丢失的时空关系。引入了感知的分类器引导，使用无条件和条件生成的联合表示，以提升生成质量和泛化能力。通过简单而有效的重复和拼接策略，将参考图像与噪声视频潜变量结合，确保身份一致性。