DynamicCity

DynamicCity – 上海 AI Lab 推出的4D动态场景生成框架

DynamicCity 是由上海AI Lab开发的一款先进的4D动态场景生成框架，专注于构建具有丰富语义信息的动态LiDAR场景。该框架能够处理广阔的空间范围（80×80×6.4 m³）及长达128帧的序列数据。DynamicCity利用变分自编码器（VAE）模型将4D场景压缩为精简的HexPlane表示，再通过基于扩散模型的生成器（DiT）重建这些动态场景。该技术突显了在高质量动态场景生成方面的卓越能力，并为自动驾驶及机器人技术提供了强有力的支持。

DynamicCity是什么

DynamicCity 是一款由上海AI Lab推出的4D动态场景生成框架，专注于创建具有语义信息的动态LiDAR场景。它能够处理大规模空间（80×80×6.4 m³）和长序列（最多128帧）的数据。该框架通过VAE模型将4D场景编码为紧凑的HexPlane表示，并利用基于扩散模型（DiT）的生成器重建动态场景。DynamicCity广泛应用于轨迹引导、指令驱动生成和动态场景修复等领域，其在CarlaSC和Occ3D-Waymo数据集上表现优异，明显优于现有技术。

DynamicCity

DynamicCity的主要功能

高质量4D场景生成：能够生成大规模且高质量的动态LiDAR场景，真实再现环境中的动态变化，支持长达128帧的复杂序列生成。
多样化应用场景：
- 轨迹引导生成：通过输入特定轨迹，控制场景中对象的移动。
- 指令驱动生成：根据指令（如“左转”、“右转”、“前进”）来控制自车或场景的。
- 动态场景修复：修复缺失或损坏的场景，生成完整的动态环境。
- 布局条件生成：根据鸟瞰图布局来控制车辆及其他对象的配置。

DynamicCity的技术原理

变分自编码器（VAE）模型：
- 编码阶段：将4D LiDAR场景压缩为紧凑的HexPlane表示，通过3D卷积神经网络提取特征，利用Projection Module将4D特征压缩为六个2D特征图，从而提升HexPlane的拟合质量（最高提升12.56%的mIoU）。
- 解码阶段：采用Expansion & Squeeze Strategy (ESS)并行解码HexPlane，以重建3D特征体积。此方法相比逐点查询，提升了拟合质量（最高提升7.05%的mIoU），加速了训练过程（最高提升2.06倍），并显著减少内存使用（最高减少70.84%）。
扩散模型（DiT）：
- HexPlane生成：在编码后的HexPlane基础上，DiT模型用于生成新的HexPlane，从而实现4D LiDAR场景的生成。为使HexPlane适用于DiT生成，提出了Padded Rollout Operation (PRO)，将六个特征平面重组为一个方形的2D特征图，高效建模特征序列中的空间和时间关系。
- 条件生成：DiT支持条件注入（如轨迹、指令、布局等），实现多样化的4D场景生成应用。通过Classifier-Free Guidance (CFG)，模型在训练过程中同时学习条件生成与无条件生成，从而在生成过程中实现更精细的控制。