ICLR 2025 Spotlight | 让城市「动」起来!DynamicCity突破4D大场景生成技术边界

DynamicCity实现了高效、可控且高质量的4D场景生成。

ICLR 2025 Spotlight | 让城市「动」起来!DynamicCity突破4D大场景生成技术边界

原标题:ICLR 2025 Spotlight | 让城市「动」起来!DynamicCity突破4D大场景生成技术边界
文章来源:机器之心
内容字数:9105字

DynamicCity: 高效高质量的4D动态场景生成模型

机器之心AIxiv专栏报道了上海人工智能实验室、梅隆大学、新加坡国立大学和新加坡南洋理工大学团队提出的DynamicCity,一个面向4D场景生成的突破性框架。该工作已被ICLR 2025接收为Spotlight论文,项目主页和代码已公开。

1. 现有技术瓶颈与DynamicCity的突破

现有的3D大型场景生成技术,例如SemCity、PDD和XCube,虽然能够生成复杂且稀疏的三维环境,但都局限于静态单帧的生成,无法捕捉真实世界中交通流、行人等动态要素的时空演化规律。DynamicCity通过4D到2D的特征降维,首次实现了高质量、高效的4D场景建模,在生成质量、训练速度和内存消耗上取得了显著进展,成功突破了静态场景生成的限制。

2. DynamicCity的核心思想与技术

DynamicCity的核心思想是通过在潜空间显式建模场景的空间布局与动态变化,并借助扩散模型直接生成高质量的动态场景。具体方法分为两步:

  1. 基于HexPlane表征的VAE:利用变分自编码器(VAE)将复杂的4D场景压缩为紧凑的2D HexPlane特征表示。 这其中,投影模块(Projection Module)将4D点云序列压缩为六个2D特征平面,Expansion & Squeeze Strategy (ESS)则在提升重建精度的同时降低内存消耗。

  2. 在重组HexPlane上训练的扩散模型:利用Padded Rollout Operation (PRO)将HexPlane特征重组为适配Diffusion Transformer (DiT)框架的特征图,最大程度保留结构化信息,帮助DiT更好地学习潜空间并生成场景的空间结构与动态演化。

3. DynamicCity的主要贡献

DynamicCity的主要贡献包括:

  1. 时空特征压缩:高效的HexPlane投影模块和ESS策略,显著提升了重建精度并降低内存消耗。

  2. 特征重组:PRO操作有效地保留了HexPlane的结构化信息,提高了DiT的学习效率。

  3. 可控生成:支持轨迹引导生成、指令驱动生成、4D场景修改、布局条件生成等多种可控生成方式。

4. 可控生成与应用

DynamicCity通过Classifier-Free Guidance (CFG)和AdaLN-Zero技术,支持HexPlane续生成、布局控制生成、车辆轨迹控制、自车控制以及4D场景修改等多种应用,为自动驾驶等领域提供了强大的工具。

5. 结论

DynamicCity通过巧妙的特征降维和扩散模型的结合,实现了高效、可控且高质量的4D动态场景生成,为未来虚拟世界构建和智能系统训练提供了新的可能性。其创新性体现在高效的4D场景表示、强大的可控性以及在多个自动驾驶相关任务中的应用潜力。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...