单图秒变3D对象,还可交互实时编辑!Stability AI中科大校友新作

单图秒变3D对象,还可交互实时编辑!Stability AI中科大校友新作

原标题:单图秒变3D对象,还可交互实时编辑!Stability AI中科大校友新作
文章来源:新智元
内容字数:8863字

Stability AI发布全新3D重建方法SPAR3D:单图秒变3D模型,实时交互编辑

Stability AI近日发布了一款名为SPAR3D的全新3D重建方法,其核心能力在于能够在不到一秒钟的时间内,仅从单张2D图像生成完整的3D物体结构,并支持实时交互式编辑。该方法的原理、代码、模型权重以及训练数据均已公开,并采用宽松的商业许可证,允许商用。

1. SPAR3D的工作原理

SPAR3D采用两阶段架构:首先,利用点扩散模型生成稀疏点云,捕捉物体的基本结构;然后,通过Transformer主干网络,同时处理生成的点云数据和输入图像,生成高分辨率的三平面数据,最终实现3D重建。这种设计巧妙地将不确定性集中在点云生成阶段,提高了计算效率。实验表明,该方法主要依赖输入图像重建正面,而依赖点云生成背面。

2. 两阶段架构详解

点云生成阶段: 使用基于去噪扩散概率模型的点扩散框架,生成包含反照率信息的稀疏点云。该阶段计算效率高,为后续网格生成提供指导。 点扩散框架包含前向加噪和后向去噪两个过程,利用Denoising diffusion implicit models (DDIM) 和 Classifier-free diffusion guidance (CFDG) 提升采样保真度。

网格生成阶段: 三平面Transformer作为主干网络,处理图像特征和点云信息,生成高分辨率的三平面数据。利用可微分渲染器,结合几何图形、材质和光照信息,最终生成纹理网格。该阶段利用可变行进四面体(DMTet)将隐式密度场转换为显式曲面,并通过多个MLP头预测点偏移、表面法线和密度,提升表面平滑度。

3. 关键设计与优势

SPAR3D的关键设计在于使用稀疏点云作为两个阶段的桥梁。点云作为轻量级的中间表示,既能保证快速重建,又能为网格生成提供足够的指导信息。此外,点云的缺乏连通性反而成为优势,方便用户进行局部编辑,例如修改物体的鼻子长度,无需担心拓扑结构问题。

4. 实验结果与性能

在GSO和Omniobject3D数据集上的基准测试表明,SPAR3D在速度和精度上都取得了显著的优势:比速度快的模型精度不如它,比精度高的模型速度不如它。平均每个物体的推理时间仅为0.7秒。

5. 交互式编辑能力

SPAR3D支持交互式编辑。用户可以通过直接操作低分辨率点云来修改3D模型的不可见部分,系统会快速生成更新后的网格,实现高效的交互式设计。

6. 作者信息

文章第一作者Zixuan Huang为中国科学技术大学校友,目前是伊利诺伊大学香槟分校的博士生,在Stability AI主导了这项工作。

总而言之,SPAR3D 凭借其高效的重建速度、高精度的重建效果以及强大的交互式编辑能力,为3D模型设计领域带来了性的突破,有望大幅降低3D建模的门槛,让更多人能够轻松上手。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...