DynamicCity – 上海 AI Lab 推出的4D动态场景生成框架
DynamicCity 是由上海AI Lab开发的一款先进的4D动态场景生成框架,专注于构建具有丰富语义信息的动态LiDAR场景。该框架能够处理广阔的空间范围(80×80×6.4 m³)及长达128帧的序列数据。DynamicCity利用变分自编码器(VAE)模型将4D场景压缩为精简的HexPlane表示,再通过基于扩散模型的生成器(DiT)重建这些动态场景。该技术突显了在高质量动态场景生成方面的卓越能力,并为自动驾驶及机器人技术提供了强有力的支持。
DynamicCity是什么
DynamicCity 是一款由上海AI Lab推出的4D动态场景生成框架,专注于创建具有语义信息的动态LiDAR场景。它能够处理大规模空间(80×80×6.4 m³)和长序列(最多128帧)的数据。该框架通过VAE模型将4D场景编码为紧凑的HexPlane表示,并利用基于扩散模型(DiT)的生成器重建动态场景。DynamicCity广泛应用于轨迹引导、指令驱动生成和动态场景修复等领域,其在CarlaSC和Occ3D-Waymo数据集上表现优异,明显优于现有技术。
DynamicCity的主要功能
- 高质量4D场景生成:能够生成大规模且高质量的动态LiDAR场景,真实再现环境中的动态变化,支持长达128帧的复杂序列生成。
- 多样化应用场景:
- 轨迹引导生成:通过输入特定轨迹,控制场景中对象的移动。
- 指令驱动生成:根据指令(如“左转”、“右转”、“前进”)来控制自车或场景的。
- 动态场景修复:修复缺失或损坏的场景,生成完整的动态环境。
- 布局条件生成:根据鸟瞰图布局来控制车辆及其他对象的配置。
DynamicCity的技术原理
- 变分自编码器(VAE)模型:
- 编码阶段:将4D LiDAR场景压缩为紧凑的HexPlane表示,通过3D卷积神经网络提取特征,利用Projection Module将4D特征压缩为六个2D特征图,从而提升HexPlane的拟合质量(最高提升12.56%的mIoU)。
- 解码阶段:采用Expansion & Squeeze Strategy (ESS)并行解码HexPlane,以重建3D特征体积。此方法相比逐点查询,提升了拟合质量(最高提升7.05%的mIoU),加速了训练过程(最高提升2.06倍),并显著减少内存使用(最高减少70.84%)。
- 扩散模型(DiT):
- HexPlane生成:在编码后的HexPlane基础上,DiT模型用于生成新的HexPlane,从而实现4D LiDAR场景的生成。为使HexPlane适用于DiT生成,提出了Padded Rollout Operation (PRO),将六个特征平面重组为一个方形的2D特征图,高效建模特征序列中的空间和时间关系。
- 条件生成:DiT支持条件注入(如轨迹、指令、布局等),实现多样化的4D场景生成应用。通过Classifier-Free Guidance (CFG),模型在训练过程中同时学习条件生成与无条件生成,从而在生成过程中实现更精细的控制。
DynamicCity的项目地址
- 项目官网:https://dynamic-city.github.io/
- GitHub仓库:https://github.com/3DTopia/DynamicCity
- arXiv技术论文:https://arxiv.org/pdf/2410.18084
DynamicCity的应用场景
- 自动驾驶仿真:生成复杂的动态场景,以支持自动驾驶算法的开发和测试,提升系统的安全性。
- 虚拟现实:创建逼真的虚拟环境,支持虚拟现实和增强现实应用,例如虚拟驾驶和城市规划展示。
- 机器人导航:模拟三维动态环境,帮助机器人进行路径规划和障碍物检测,提高适应性。
- 交通流量分析:对交通流量进行建模和分析,预测拥堵情况,优化交通信号和道路布局。
- 智能城市规划:生成城市级动态场景,辅助评估城市布局和公共设施的规划。
常见问题
- DynamicCity支持哪些数据格式?:DynamicCity支持多种LiDAR数据格式,以适应不同的应用需求。
- 如何获取DynamicCity的技术支持?:可以通过官方网站或GitHub仓库提交问题,团队会尽快回应。
- DynamicCity的系统要求是什么?:具体的系统要求可以在项目官网找到,包括所需的硬件和软件环境。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...