ICLR 2025 Spotlight | 让城市「动」起来！DynamicCity突破4D大场景生成技术边界

DynamicCity实现了高效、可控且高质量的4D场景生成。

原标题：ICLR 2025 Spotlight | 让城市「动」起来！DynamicCity突破4D大场景生成技术边界
文章来源：机器之心
内容字数：9105字

DynamicCity: 高效高质量的4D动态场景生成模型

机器之心AIxiv专栏报道了上海人工智能实验室、梅隆大学、新加坡国立大学和新加坡南洋理工大学团队提出的DynamicCity，一个面向4D场景生成的突破性框架。该工作已被ICLR 2025接收为Spotlight论文，项目主页和代码已公开。

1. 现有技术瓶颈与DynamicCity的突破

现有的3D大型场景生成技术，例如SemCity、PDD和XCube，虽然能够生成复杂且稀疏的三维环境，但都局限于静态单帧的生成，无法捕捉真实世界中交通流、行人等动态要素的时空演化规律。DynamicCity通过4D到2D的特征降维，首次实现了高质量、高效的4D场景建模，在生成质量、训练速度和内存消耗上取得了显著进展，成功突破了静态场景生成的限制。

2. DynamicCity的核心思想与技术

DynamicCity的核心思想是通过在潜空间显式建模场景的空间布局与动态变化，并借助扩散模型直接生成高质量的动态场景。具体方法分为两步：

基于HexPlane表征的VAE：利用变分自编码器（VAE）将复杂的4D场景压缩为紧凑的2D HexPlane特征表示。这其中，投影模块(Projection Module)将4D点云序列压缩为六个2D特征平面，Expansion & Squeeze Strategy (ESS)则在提升重建精度的同时降低内存消耗。
在重组HexPlane上训练的扩散模型：利用Padded Rollout Operation (PRO)将HexPlane特征重组为适配Diffusion Transformer (DiT)框架的特征图，最大程度保留结构化信息，帮助DiT更好地学习潜空间并生成场景的空间结构与动态演化。

3. DynamicCity的主要贡献

DynamicCity的主要贡献包括：

时空特征压缩：高效的HexPlane投影模块和ESS策略，显著提升了重建精度并降低内存消耗。
特征重组：PRO操作有效地保留了HexPlane的结构化信息，提高了DiT的学习效率。
可控生成：支持轨迹引导生成、指令驱动生成、4D场景修改、布局条件生成等多种可控生成方式。

4. 可控生成与应用

DynamicCity通过Classifier-Free Guidance (CFG)和AdaLN-Zero技术，支持HexPlane续生成、布局控制生成、车辆轨迹控制、自车控制以及4D场景修改等多种应用，为自动驾驶等领域提供了强大的工具。

5. 结论

DynamicCity通过巧妙的特征降维和扩散模型的结合，实现了高效、可控且高质量的4D动态场景生成，为未来虚拟世界构建和智能系统训练提供了新的可能性。其创新性体现在高效的4D场景表示、强大的可控性以及在多个自动驾驶相关任务中的应用潜力。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # 4D城市场景生成 # 人工智能城市规划 # 动态城市模拟 # 大规模场景建模 # 时空数据融合

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

ICLR 2025 Spotlight | 让城市「动」起来！DynamicCity突破4D大场景生成技术边界

DynamicCity实现了高效、可控且高质量的4D场景生成。

DynamicCity: 高效高质量的4D动态场景生成模型

1. 现有技术瓶颈与DynamicCity的突破

2. DynamicCity的核心思想与技术

3. DynamicCity的主要贡献

4. 可控生成与应用

5. 结论

联系作者

Llama都在用的RoPE有了视频版，复旦上海AI Lab等提出长视频理解/检索绝佳拍档

阿尔特曼被偷家了

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点