TrajectoryCrafter – 腾讯和港中文推出的单目视频运镜技术
TrajectoryCrafter是什么
TrajectoryCrafter是腾讯PCG ARC Lab与香港中文大合推出的一种创新技术,旨在对单目视频的相机轨迹进行重定向。这一方法允许用户在后期制作中调整视频的相机位置和角度,实现运镜方式的灵活变换。TrajectoryCrafter的核心基于解耦视图变换和内容生成,通过双流条件视频扩散模型,将点云渲染与源视频结合,能够精确控制用户指定的相机轨迹,实现高质量的4D内容生成。此外,该系统采用双重重投影策略,并结合动态单目视频与静态多视角数据进行模型训练,显著提升了在多样化场景中的适应能力。TrajectoryCrafter在多视角及大规模单目视频数据集上展现了卓越的表现,能够生成高保真度且与原视频一致的新型轨迹视频,为用户带来全新的沉浸式视频体验。
TrajectoryCrafter的主要功能
- 精确轨迹控制:用户可以指定任意相机轨迹(包括平移、旋转和缩放),生成与之相匹配的视频内容。
- 高保真视频生成:所生成的视频在视觉效果上与原视频高度一致,具备丰富的细节与纹理。
- 4D一致性:生成的视频在空间上与目标轨迹保持一致,同时在时间上与原视频保持连贯,避免内容漂移或闪烁现象。
- 多样化场景适应性:模型能够适应各种场景,包括室内、室外及动态场景,展现良好的泛化能力。
TrajectoryCrafter的技术原理
- 双流条件视频扩散模型:
- 解耦视图变换与内容生成:将相机轨迹的确定性变换与内容生成的随机性进行分开处理。通过点云渲染实现精确的视图变换,并利用视频扩散模型生成高质量内容。
- 双流条件机制:模型包含两个条件输入:点云渲染(用于精确控制视图变换)和源视频(提供细节与纹理)。使用独特的Ref-DiT模块(参考条件扩散变换器),通过交叉注意力机制将源视频的细节信息注入生成过程中,从而提升生成视频的保真度。
- 动态点云渲染:通过深度估计将单目视频转换为动态点云,并根据用户指定的相机轨迹渲染新视图。点云渲染能准确捕捉几何关系和视图变换,提供几何指导。
- 混合数据集与训练策略:采用混合数据集策略,将网络规模的单目视频与静态多视角数据结合进行训练。对于单目视频,运用双重重投影策略生成大规模训练样本。具体方法是通过深度估计将视频转换为点云,渲染新视图后再重新投影回原始视角,从而模拟点云渲染效果。模型的训练分为两个阶段,第一阶段专注于视图变换的准确性和缺失区域的合成,第二阶段则利用多视角数据集训练,以提升生成视频与源视频的一致性。
TrajectoryCrafter的项目地址
- 项目官网:https://trajectorycrafter.github.io/
- GitHub仓库:https://github.com/TrajectoryCrafter/TrajectoryCrafter
- arXiv技术论文:https://arxiv.org/pdf/2503.05638
- 在线体验Demo:https://huggingface.co/spaces/Doubiiu/TrajectoryCrafter
TrajectoryCrafter的应用场景
- 沉浸式娱乐:用于虚拟现实(VR)和增强现实(AR),让用户能够切换观看视角,增强沉浸感。
- 创意视频制作:帮助影视和短视频创作者添加新视角效果,提升内容的吸引力。
- 智能视频会议:动态调整会议视角,聚焦特定区域或人员,提升交互性。
- 自动驾驶与机器人:生成多视角的驾驶或导航场景,用于算法的训练和测试。
- 教育与培训:创建多视角教学视频,帮助学生更好地理解和学习。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...