DynamicCity

DynamicCity – 上海 AI Lab 推出的4D动态场景生成框架

DynamicCity 是由上海AI Lab开发的一款先进的4D动态场景生成框架,专注于构建具有丰富语义信息的动态LiDAR场景。该框架能够处理广阔的空间范围(80×80×6.4 m³)及长达128帧的序列数据。DynamicCity利用变分自编码器(VAE)模型将4D场景压缩为精简的HexPlane表示,再通过基于扩散模型的生成器(DiT)重建这些动态场景。该技术突显了在高质量动态场景生成方面的卓越能力,并为自动驾驶及机器人技术提供了强有力的支持。

DynamicCity是什么

DynamicCity 是一款由上海AI Lab推出的4D动态场景生成框架,专注于创建具有语义信息的动态LiDAR场景。它能够处理大规模空间(80×80×6.4 m³)和长序列(最多128帧)的数据。该框架通过VAE模型将4D场景编码为紧凑的HexPlane表示,并利用基于扩散模型(DiT)的生成器重建动态场景。DynamicCity广泛应用于轨迹引导、指令驱动生成和动态场景修复等领域,其在CarlaSC和Occ3D-Waymo数据集上表现优异,明显优于现有技术。

DynamicCity

DynamicCity的主要功能

  • 高质量4D场景生成:能够生成大规模且高质量的动态LiDAR场景,真实再现环境中的动态变化,支持长达128帧的复杂序列生成。
  • 多样化应用场景
    • 轨迹引导生成:通过输入特定轨迹,控制场景中对象的移动。
    • 指令驱动生成:根据指令(如“左转”、“右转”、“前进”)来控制自车或场景的。
    • 动态场景修复:修复缺失或损坏的场景,生成完整的动态环境。
    • 布局条件生成:根据鸟瞰图布局来控制车辆及其他对象的配置。

DynamicCity的技术原理

  • 变分自编码器(VAE)模型
    • 编码阶段:将4D LiDAR场景压缩为紧凑的HexPlane表示,通过3D卷积神经网络提取特征,利用Projection Module将4D特征压缩为六个2D特征图,从而提升HexPlane的拟合质量(最高提升12.56%的mIoU)。
    • 解码阶段:采用Expansion & Squeeze Strategy (ESS)并行解码HexPlane,以重建3D特征体积。此方法相比逐点查询,提升了拟合质量(最高提升7.05%的mIoU),加速了训练过程(最高提升2.06倍),并显著减少内存使用(最高减少70.84%)。
  • 扩散模型(DiT)
    • HexPlane生成:在编码后的HexPlane基础上,DiT模型用于生成新的HexPlane,从而实现4D LiDAR场景的生成。为使HexPlane适用于DiT生成,提出了Padded Rollout Operation (PRO),将六个特征平面重组为一个方形的2D特征图,高效建模特征序列中的空间和时间关系。
    • 条件生成:DiT支持条件注入(如轨迹、指令、布局等),实现多样化的4D场景生成应用。通过Classifier-Free Guidance (CFG),模型在训练过程中同时学习条件生成与无条件生成,从而在生成过程中实现更精细的控制。

DynamicCity的项目地址

DynamicCity的应用场景

  • 自动驾驶仿真:生成复杂的动态场景,以支持自动驾驶算法的开发和测试,提升系统的安全性。
  • 虚拟现实:创建逼真的虚拟环境,支持虚拟现实和增强现实应用,例如虚拟驾驶和城市规划展示。
  • 机器人导航:模拟三维动态环境,帮助机器人进行路径规划和障碍物检测,提高适应性。
  • 交通流量分析:对交通流量进行建模和分析,预测拥堵情况,优化交通信号和道路布局。
  • 智能城市规划:生成城市级动态场景,辅助评估城市布局和公共设施的规划。

常见问题

  • DynamicCity支持哪些数据格式?:DynamicCity支持多种LiDAR数据格式,以适应不同的应用需求。
  • 如何获取DynamicCity的技术支持?:可以通过官方网站或GitHub仓库提交问题,团队会尽快回应。
  • DynamicCity的系统要求是什么?:具体的系统要求可以在项目官网找到,包括所需的硬件和软件环境。
阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...