MatAnyone

MatAnyone – 南洋理工和商汤科技推出的人像视频抠图框架

MatAnyone是什么

MatAnyone是由南洋理工大学S-Lab实验室与商汤科技联合开发的前沿框架，旨在解决复杂背景下的人像视频抠图问题。该系统专注于目标指定的视频抠图任务，利用一致的内存传播模块和区域自适应内存融合技术，确保视频序列中核心区域的语义稳定性和边界细节的精确性。MatAnyone采用创新的训练策略，通过大规模的分割数据直接监督抠图头，显著增强模型在实际场景中的稳定性和泛化能力。此外，MatAnyone还配备了高质量、多样化的训练数据集VM800和更具挑战性的测试数据集YoutubeMatte，为模型的训练与评估提供了坚实的基础。

MatAnyone

MatAnyone的主要功能

稳定的目标跟踪：在整个视频中持续跟踪目标对象，即使在复杂或模糊的背景中也能保持目标的完整性。
精细的边界细节提取：支持生成高质量的alpha遮罩，特别是在边界区域（例如头发、边缘等）表现尤为出色，确保图像级的细节精度。
适应多种视频类型：MatAnyone能够处理各种类型的视频，包括电影、游戏和智能手机视频，适应不同的帧尺寸和媒体格式。
增强交互性：用户可在视频的第一帧指定目标分割掩码，从而引导整个抠图过程，实现更精准的交互式视频编辑。

MatAnyone的技术原理

一致内存传播：
- 内存融合：CMP模块通过估算当前帧与前一帧之间的alpha值变化，自适应融合来自前一帧的信息。在“大变化”区域（通常是边界），更多依赖于当前帧的信息；而在“小变化”区域（通常是核心区域），则保留前一帧的内存。
- 区域自适应：借助轻量级的边界区域预测模块，估计每个查询令牌的变化概率，实现区域自适应的内存融合，显著提升核心区域的语义稳定性和边界区域的细节精度。
核心区域监督：
- 分割数据的直接监督：为解决真实视频抠图数据稀缺的难题，MatAnyone使用大规模真实分割数据直接监督抠图头。通过在核心区域应用像素级损失（Lcore）和在边界区域使用改进的DDC损失（Lboundary），确保语义稳定性和细节精度。
- 改进的DDC损失：通过调整DDC损失的计算方式，使其更适合视频抠图任务，有效避免传统DDC损失在边界区域产生的锯齿状和阶梯状边缘。
新数据集与训练策略：
- 高质量训练数据集：引入新的训练数据集VM800，其规模是现有数据集VideoMatte240K的两倍，且在核心和边界区域的质量更高，显著提升模型的训练效果。
- 多阶段训练：通过多阶段训练策略，初步在视频抠图数据上初始化模型，然后基于分割数据进行核心区域监督，最终利用图像抠图数据进一步优化边界细节。
网络架构：
- 编码器：采用ResNet-50作为编码器，提取特征并生成查询和键。
- 对象变换器：通过对象变换器模块，将像素级内存按对象语义进行分组，减少低层次像素匹配带来的噪声。
- 解码器：解码器基于多级上采样和跳跃连接，生成高精度的alpha遮罩。
- 值编码器：将预测的alpha遮罩和图像特征编码为值，用于更新内存库。