ActAnywhere

ActAnywhere是什么

ActAnywhere是斯坦福大学与Adobe Research的研究者们联合开发的一款视频生成模型，专注于视频背景的自动生成，尤其是在需要将前景主体（如人类角色）与新背景无缝融合的场景中。此模型在电影制作及视觉效果（VFX）行业中表现出色，能够高效地创建与前景主体相匹配的视频背景，显著减少了传统手动合成所需的时间和精力。

ActAnywhere

官方项目主页：https://actanywhere.github.io/

Arxiv论文地址：https://arxiv.org/abs/2401.10822

主要功能

前景与背景的完美融合：该模型能够根据前景主体的动态与外观，自动生成与之相匹配的背景，使得二者之间的互动显得自然流畅。
基于条件帧的背景生成：用户可以提供一幅描述新场景的图像（条件帧），ActAnywhere将基于该图像生成相应的视频背景。这使用户能够指定特定的背景元素，例如特定的建筑物、自然景观或室内环境。
时间一致性：利用时间自注意力机制，ActAnywhere确保生成的视频在时间上保持一致性，包括相机、光照变化及阴影效果。
自监督学习：ActAnywhere通过在大规模人类-场景交互视频数据集上进行自监督训练，能够在没有人工标注的情况下自我学习如何生成视频背景。
零样本学习能力：此模型在未进行额外训练的情况下，能够对新的、未见过的数据（如非人类主体）进行生成，显示出其在背景生成策略上的通用性。

ActAnywhere的工作原理

ActAnywhere

ActAnywhere通过以下步骤和组件生成具有高度真实感和时间连贯性的视频背景：

数据准备：
- 采用前景主体分割算法（如Mask R-CNN）从输入视频中提取前景主体的分割序列（S）及相应的掩膜（M）。
- 引入一个条件帧（c），该帧描述所需生成的背景，可以是背景图像或包含前景与背景的复合帧。
特征编码：
- 使用预训练的变分自编码器（VAE）对前景主体分割序列进行编码，得到潜在特征（ˆS）。
- 将前景掩膜序列下采样并与潜在特征对齐，以确保特征维度匹配。
扩散过程：
- 在训练阶段，利用VAE编码器将原始视频帧编码为潜在表示（Z），然后在正向扩散中逐步添加高斯噪声。
- 在测试阶段，潜在表示（Z0）初始化为高斯噪声，并通过逆向扩散过程逐步去噪，以生成最终的视频帧。
时间注意力机制：
- 在去噪的U-Net模型中插入模块，这些模块包括特征投影层和1D时间自注意力模块，以确保时间上的连贯性。
- 通过CLIP图像编码器提取条件帧的特征（Fc），并将其注入U-Net的交叉注意力层中，以确保生成的视频背景与条件帧保持一致。
训练目标：
- 使用简化的扩散目标进行训练，旨在预测添加的噪声，通过最小化预测噪声与真实噪声之间的差异来优化模型。
数据增强与处理：
- 在训练过程中，为应对不完美的分割掩膜，应用随机矩形裁剪和图像腐蚀操作。
- 在测试阶段，通过随机丢弃分割、掩膜或条件帧来实现无分类器的引导。
模型训练：
- 在大规模人类-场景交互视频数据集（HiC+）上进行训练，该数据集包含240万个视频。
- 使用AdamW优化器，设定学习率为3e-5，冻结共享的VAE和CLIP编码器，仅微调U-Net。
生成过程：
- 在测试阶段，将前景主体序列和条件帧输入训练好的模型，模型将生成与前景主体相协调的视频背景。

ActAnywhere的应用场景

视频背景替换：ActAnywhere能够将视频中的前景主体放置于全新的背景中，这在电影制作、广告、虚拟现实（VR）和增强现实（AR）等领域尤为有用。例如，可以将演员置于虚构场景中，或在不实际拍摄的情况下模拟特定环境。
视觉效果增强：在视觉效果（VFX）制作中，ActAnywhere可用于生成复杂的背景效果，如动态天气变化、光影效果及人群互动，而无需实际拍摄这些元素。
创意内容制作：艺术家和内容创作者可以利用ActAnywhere快速尝试并实现他们的创意构想，例如将角色置于不同的历史时期或未来世界，或与虚构生物互动。
教育与培训：在教育领域，ActAnywhere可用于创建模拟场景，帮助学生更好地理解复杂概念或历史，或用于安全培训，模拟紧急情况。
游戏与娱乐：游戏开发者可以使用ActAnywhere生成动态背景，为玩家提供更丰富、更真实的游戏体验。同时，它也可以应用于电影预告片、音乐视频及其他娱乐内容的制作。

常见问题

ActAnywhere可以用于哪些类型的视频？ ActAnywhere适用于各种类型的视频，无论是电影、广告还是教育视频，都能有效生成合适的背景。
使用ActAnywhere需要什么样的技术背景？ 虽然ActAnywhere具有强大的自动化能力，但用户需具备一定的技术基础，以便更好地理解和使用该工具。
是否需要额外的硬件支持？ 为了获得最佳效果，建议使用高性能的计算设备，因为视频生成过程需要处理大量的数据和模型计算。

阅读原文