Hi3DGen

AI工具1年前 (2025)更新 AI工具集

Hi3DGen – 港中文、字节、清华联合推出的3D几何生成框架

Hi3DGen

Hi3DGen是什么

Hi3DGen 是由香港中文大学（深圳）、字节跳动和清华大学的研究人员联手开发的一款高保真3D几何生成框架。该系统能够从2D图像转换为高质量的3D模型，利用法线图作为中间表示，Hi3DGen 在生成丰富几何细节方面表现出色，远超现有技术。其框架包括三个核心组件：图像法线估计器、法线到几何的学习方法以及3D数据合成管道。

Hi3DGen的主要功能

高保真3D模型生成：将2D图像转化为细节丰富的3D几何模型。
图像法线估计：通过噪声注入和双流训练，解耦低频与高频图像模式，实现稳定且清晰的法线估计。
法线到几何学习：基于法线图的正则化技术，提升3D几何生成的保真度。
3D数据合成：构建高质量的3D数据集，以支持模型的训练。

Hi3DGen的技术原理

图像法线估计器：该组件通过噪声注入和双流训练，分离图像的低频和高频模式。低频模式负责整体形状和结构，而高频模式则聚焦于细节和纹理，从而生成可泛化、稳定且清晰的法线图，为后续3D几何生成提供高质量的中间表示。
法线到几何学习方法：利用法线图作为正则化手段，对潜在扩散模型进行训练，增强3D几何生成的细节保留。
3D数据合成管道：通过合成高质量的3D数据集，支持模型学习2D图像与3D几何之间的映射关系。
两阶段生成过程：Hi3DGen 采用两阶段生成策略：
- 第一阶段：基础多视角生成：使用预训练的视频扩散模型，依据额外的相机姿态进行微调，将单视角图像转换为低分辨率的3D感知序列图像（轨道视频）。
- 第二阶段：3D感知多视角细化：输入第一阶段生成的低分辨率多视角图像到3D感知视频到视频细化器，进一步提升图像的分辨率与纹理细节。
3D高斯散射（3DGS）：从生成的高分辨率多视角图像中学习隐式3D模型，并通过3DGS渲染额外的插值视图。
基于SDF的重建：利用基于SDF（Signed Distance Function）的重建技术，从增强的密集视图中提取高质量的3D网格。