Bolt3D

Bolt3D – 牛津大合谷歌推出的 3D 场景生成技术

Bolt3D

Bolt3D 是一项由谷歌研究院、牛津大学的 VGG 团队以及谷歌 DeepMind 联合开发的创新型 3D 场景生成技术。这项潜在扩散模型可以在单个 GPU 上，短短不到七秒的时间内，从一张或多张图像中生成 3D 场景表示。在英伟达 H100 图形处理单元上，Bolt3D 仅需 6.25 秒便能将照片转化为完整的三维场景。

Bolt3D是什么

Bolt3D 是一种先进的 3D 场景生成技术，由谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 的专家团队共同开发。它是一种潜在扩散模型，能够在单个 GPU 上，快速地从一张或多张输入图像中生成 3D 场景表示，处理速度极快，使用英伟达 H100 图形处理单元时，仅需 6.25 秒即可完成整个过程。

Bolt3D的主要功能

迅速生成三维场景：Bolt3D 采用前馈生成方法，能够直接从一张或多张输入图像中采样出 3D 场景表示，生成速度非常快，在单个 GPU 上仅需 6.25 秒即可完成。
支持多视角输入与优异的泛化能力：该技术支持不同数量的输入图像，从单视图到多视图均可有效处理，能够生成未被观测区域的内容，展现出良好的泛化能力。
高保真度的3D场景表示：基于高斯溅射技术，Bolt3D 通过在二维网格中布置三维高斯函数来存储数据，每个函数记录了位置、颜色、透明度和空间信息，生成的三维场景质量极高。
实时交互与广泛应用：用户能够在浏览器中实时查看和渲染生成的 3D 场景，具备广阔的应用前景，涵盖游戏开发、虚拟现实、增强现实、建筑设计、影视制作等多个领域。

Bolt3D的技术原理

几何多视角潜在扩散模型：该模型经过训练，用于联合建模图像和 3D 点图，能够处理一张或多张图像及其相机位姿，学习捕捉目标图像、目标点图和源视图点图的联合分布。
几何变分自编码器（VAE）：Bolt3D 使用几何 VAE，将一个视图的点图和相机射线图联合编码为几何潜在特征，模型通过最小化标准 VAE 目标和特定几何损失的组合进行优化，以高精度压缩点图。
高斯头部模型：给定相机及生成的图像和点图，Bolt3D 训练多视角前馈高斯头部模型，输出存储在散点图像中的 3D 高斯的细化颜色、不透明度和协方差矩阵。
大规模多视角一致数据集：为训练 Bolt3D，构建了一个大规模的多视角一致的 3D 几何及外观数据集，通过对现有的多视图图像数据集应用先进的密集重建技术生成。
三阶段训练过程：Bolt3D 采用三阶段训练流程，首先训练几何变分自编码器，然后训练高斯头部模型，最后训练潜在扩散模型。