ReCapture：谷歌与新加坡国立大学携手推出创新视频处理技术，提升画质与处理效率

ReCapture是一项由谷歌和新加坡国立大合开发的视频处理技术，能够从单一用户提供的视频中生成具有新相机轨迹的新视频。该技术运用多视图扩散模型及基于深度的点云渲染，创造出带有新相机视角的噪声锚视频，并通过掩码视频微调技术，将锚视频转化为清晰且时间一致的重角度视频，同时保留原视频中的场景动态，从而以全新的视角展现场景。

ReCapture是什么

ReCapture是一个创新的视频处理工具，旨在从用户上传的源视频中生成具有全新相机轨迹的视觉内容。该技术通过多视图扩散模型及深度点云渲染生成带有新视角的初步视频，并借助掩码视频微调技术，将这一初步视频转换为干净、时间一致的高质量再现视频，确保原始视频中的场景得以保留。这种技术还能够合理地推测出未在原视频中展示的场景部分，增强视频的完整性。

ReCapture的主要功能

新视角视频生成：从用户提供的源视频中创建全新的相机轨迹，支持从不同角度观察同一场景。
保留场景动态：在生成新视角视频时，确保保留源视频中的所有现有场景动态。
高级相机模拟：模拟电影级的相机，如平移、缩放和倾斜，增强视频的视觉吸引力。
场景补全能力：能够合理想象并补全源视频中未显示的场景部分，提高视频内容的完整性。
视频质量提升：运用掩码视频微调技术，将带有噪声的锚视频转化为清晰、时间一致的高质量视频。

ReCapture的技术原理

锚视频生成：
- 深度估计与点云渲染：通过逐帧深度估计，将视频帧转换为3D点云序列，根据用户指定的相机模拟新视角，渲染点云序列生成新的视频帧。
- 多视图扩散模型：对于复杂的相机轨迹，利用多视图扩散模型生成新视角的视频帧。
掩码视频微调：
- 时间LoRA（低秩适应）：在掩码锚视频上微调时间LoRA，以学习场景的动态特征，专注于有意义的像素部分，忽略未知区域。
- 空间LoRA：在源视频的增强帧上微调空间LoRA，以学习场景的外观，确保填补的像素与原视频像素无缝融合。
视频模型的强先验：利用强先验知识，在掩码区域自动填充合理内容，从而显著提高视频的时间一致性，消除锚视频中的抖动。