GEN3C

GEN3C – NVIDIA 联合多伦多大学等推出的生成式视频模型

GEN3C是什么

GEN3C是由NVIDIA、多伦多大学和向量研究所共同开发的一款先进的生成式视频模型,旨在通过精确控制相机和保持时空一致性来创造高质量的3D视频内容。该模型利用基于点云的3D缓存技术,引入输入图像或视频帧的深度估计,通过反投影生成3D场景。在用户所提供的相机轨迹的基础上,GEN3C能够渲染出对应的2D视频,成为生成模型的重要条件输入。其核心优势在于能够精确控制相机的,避免了传统方法中因缺乏明确3D建模而导致的不一致性问题。GEN3C同时支持单视角和多视角的视频生成,适应于静态和动态场景,并在稀疏视图的新型视图合成任务中取得了领先的成果。此外,GEN3C还支持3D编辑和复杂的相机(比如推拉镜头),为视频创作和模拟提供了强大的工具。

GEN3C

GEN3C的主要功能

  • 精确的相机控制:根据用户输入的相机轨迹生成视频,支持复杂的相机(如推拉、旋转等),确保视频的时空一致性。
  • 3D一致性视频生成:能够生成外观真实且一致的视频,避免物体的突然出现或消失等问题。
  • 多视角和稀疏视角的新型视图合成:支持从单一视角、稀疏多视角到密集多视角的输入生成高质量视频。
  • 3D编辑和场景操作:用户可对3D点云进行修改(如添加或删除物体),并生成相应的视频。
  • 长视频生成:支持生成长视频,并保持时空的一致性。

GEN3C的技术原理

  • 构建3D缓存:通过输入图像或视频帧的深度估计进行反投影,生成3D点云,形成时空一致的3D缓存。这一缓存为视频生成提供了基础的3D结构。
  • 渲染3D缓存:依据用户提供的相机轨迹,将3D缓存渲染为2D视频。
  • 视频生成:使用预训练的视频扩散模型(例如Stable Video Diffusion或Cosmos),将渲染的3D缓存作为条件输入,生成高质量的视频。该模型优化了扩散过程中的去噪目标,以修复渲染中的缺陷并填补缺失信息。
  • 多视角融合:在处理多个视角输入时,GEN3C采用最大池化的融合策略,将不同视角的信息整合到视频生成模型中,以生成一致的视频。
  • 自回归生成和缓存更新:在生成长视频时,GEN3C将视频划分为多个重叠的部分,逐块生成,并更新3D缓存以保持视频的时空一致性。

GEN3C的项目地址

GEN3C的应用场景

  • 单视角视频生成:能够从一张静态图片生成动态视频,适合快速内容创作。
  • 新型视图合成:从少量视角生成新视角视频,广泛应用于VR/AR和3D重建。
  • 驾驶模拟:生成不同视角的驾驶场景视频,有助于自动驾驶的训练。
  • 动态视频重渲染:为已有的视频生成新视角,适合视频编辑与二次创作。
  • 3D场景编辑:用户可在修改场景内容后生成新视频,助力影视制作与游戏开发。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...