Wonderland

AI工具1年前 (2024)发布 AI工具集

Wonderland – 多伦多大学、Snap和UCLA联合推出的单视图3D场景生成技术

Wonderland是什么

Wonderland是一项由多伦多大学、Snap和UCLA的研究团队共同开发的技术，能够从单张图片中生成高质量、广泛的3D场景，并允许用户控制摄像轨迹。这一技术突破性地证明了三维重建模型可以有效地基于扩散模型的潜在空间进行构建，从而实现高效的三维场景生成。通过结合视频扩散模型和大规模3D重建模型，Wonderland成功解决了传统3D重建技术中的视角失真问题，提供了精准的视角控制和多视角视频生成的能力。

Wonderland

Wonderland的主要功能

视频生成：Wonderland能够根据单张图像及相机条件，精准生成视角控制的视频，制作出三维几何一致的高质量视频，具有较强的泛化能力，适合多种复杂轨迹和不同风格的输入图像。
3D场景生成：凭借单张图像，Wonderland基于LaLRM技术可以生成高质量且广泛的3D场景，深入探索并创建出丰富的三维环境。
零样本3D场景生成：在单图像输入的基础上，Wonderland能够高效进行3D场景的前向重建，其在多个基准数据集上的表现超越了现有大多数方法。
广泛的场景生成能力：Wonderland具备高效生成复杂场景的能力，生成的3D场景保持高度的几何一致性，并能处理超出训练域的场景。

Wonderland的技术原理

视频扩散模型与3D重建模型的融合：Wonderland首次展示了三维重建模型能够有效地在扩散模型的潜在空间中进行构建，进而实现高效的三维场景生成。视频扩散模型能够精确地按照指定的相机轨迹创建视频，生成含有多视角信息的潜在特征，同时维护三维一致性。
双分支相机控制机制：通过使用ControlNet和LoRA模块，Wonderland在视频生成过程中实现了对多样化相机视角变化的精准控制，大幅提升了生成视频的质量、几何一致性和静态特征。
大规模潜在基础3D重建模型（LaLRM）：Wonderland创新性地引入了LaLRM，通过视频生成模型生成的潜在特征直接进行3D场景重构，采用高效的逐步训练策略，将视频潜在空间中的信息转换为三维高斯点分布（3D Gaussian Splatting，3DGS），显著降低了内存需求和重建时间。
从单张图片到三维世界的关键创新：传统的3D重建技术通常依赖多视角数据或逐一场景优化，且对背景和不可见区域处理时容易出现失真。Wonderland通过结合视频生成和大规模3D重建模型，实现了高效且高质量的大规模3D场景生成。
在视频扩散模型中嵌入3D意识：通过在视频扩散模型中引入相机位姿控制，Wonderland在视频潜在空间中嵌入了场景的多视角信息，并确保了三维一致性。