SPAR3D

SPAR3D – Stability AI等机构推出的单试图重建 3D 网络模型

SPAR3D是什么

SPAR3D是由Stability AI和伊利诺伊大学香槟分校联合开发的一种先进技术，旨在通过单张图片高效生成高质量的3D模型。该方法采用了两阶段的设计理念，在第一阶段利用点扩散模型生成稀疏的3D点云，而在第二阶段则结合采样的点云和输入图像，生成高度精细的网格。SPAR3D将回归模型与生成模型的优点结合在一起，能够准确重建图像中可见的表面，同时合理推测被遮挡部分的几何形状和纹理细节。这一技术在多个数据集上表现优异，推理速度极快，并且支持用户对生成的网格进行交互式编辑，为单视图3D重建提供了一种实用且高效的解决方案。

SPAR3D

SPAR3D的主要功能

单视图3D重建：能够从一张2D图像中重建出高质量的3D网格模型，广泛应用于增强现实、电影制作、制造业等需要3D建模的领域。
快速推理：具备高效的推理性能，重建每个物体的时间仅需0.7秒，适合实时应用的需求。
用户编辑支持：生成的3D网格允许用户进行交互式编辑，用户可以基于点云的修改调整未见表面的细节，如添加部件或改善局部特征，以满足个性化需求。
强大的泛化能力：不仅在标准数据集上表现卓越，还能在多图像和AI生成图像上实现准确的几何结构重建和优良的纹理效果，展现出强大的泛化性能。

SPAR3D的技术原理

两阶段设计：
- 点采样阶段：使用轻量级点扩散模型生成稀疏的3D点云。该模型基于DDPM框架，采用前向过程向原始点云添加噪声，再通过后向过程的去噪器学习去除噪声，从而生成包含XYZ和RGB信息的点云。点扩散模型的低分辨率特性使得采样速度迅速，能够初步捕捉物体的基本形状和颜色信息。
- 网格化阶段：将采样得到的点云和输入图像作为条件，利用大型三平面Transformer生成高分辨率的三平面特征。这些特征用于估计物体的几何形状、纹理、光照及材质属性（如金属度和粗糙度）。通过可微分渲染器进行训练，将预测的几何和材质渲染成图像，与真实图像进行比较，从而优化模型参数，生成与输入图像高度一致且细节丰富的3D网格。
点云作为中间表示：点云作为连接两个阶段的桥梁，为网格化阶段提供必要的几何和颜色信息，支持用户在点云层面进行编辑，增强模型的灵活性和交互性。
概率建模与逆渲染：在点采样阶段，基于概率建模处理单视图3D重建中的不确定性问题，生成合理的点云分布。在网格化阶段，通过逆渲染技术将点云与图像信息融合，推测出物体的详细几何结构和材质属性，从而解决从单张图像中分离几何、光照和材质的难题。