DynamicCity实现了高效、可控且高质量的4D场景生成。
原标题:ICLR 2025 Spotlight | 让城市「动」起来!DynamicCity突破4D大场景生成技术边界
文章来源:机器之心
内容字数:9105字
DynamicCity: 高效高质量的4D动态场景生成模型
机器之心AIxiv专栏报道了上海人工智能实验室、梅隆大学、新加坡国立大学和新加坡南洋理工大学团队提出的DynamicCity,一个面向4D场景生成的突破性框架。该工作已被ICLR 2025接收为Spotlight论文,项目主页和代码已公开。
1. 现有技术瓶颈与DynamicCity的突破
现有的3D大型场景生成技术,例如SemCity、PDD和XCube,虽然能够生成复杂且稀疏的三维环境,但都局限于静态单帧的生成,无法捕捉真实世界中交通流、行人等动态要素的时空演化规律。DynamicCity通过4D到2D的特征降维,首次实现了高质量、高效的4D场景建模,在生成质量、训练速度和内存消耗上取得了显著进展,成功突破了静态场景生成的限制。
2. DynamicCity的核心思想与技术
DynamicCity的核心思想是通过在潜空间显式建模场景的空间布局与动态变化,并借助扩散模型直接生成高质量的动态场景。具体方法分为两步:
基于HexPlane表征的VAE:利用变分自编码器(VAE)将复杂的4D场景压缩为紧凑的2D HexPlane特征表示。 这其中,投影模块(Projection Module)将4D点云序列压缩为六个2D特征平面,Expansion & Squeeze Strategy (ESS)则在提升重建精度的同时降低内存消耗。
在重组HexPlane上训练的扩散模型:利用Padded Rollout Operation (PRO)将HexPlane特征重组为适配Diffusion Transformer (DiT)框架的特征图,最大程度保留结构化信息,帮助DiT更好地学习潜空间并生成场景的空间结构与动态演化。
3. DynamicCity的主要贡献
DynamicCity的主要贡献包括:
时空特征压缩:高效的HexPlane投影模块和ESS策略,显著提升了重建精度并降低内存消耗。
特征重组:PRO操作有效地保留了HexPlane的结构化信息,提高了DiT的学习效率。
可控生成:支持轨迹引导生成、指令驱动生成、4D场景修改、布局条件生成等多种可控生成方式。
4. 可控生成与应用
DynamicCity通过Classifier-Free Guidance (CFG)和AdaLN-Zero技术,支持HexPlane续生成、布局控制生成、车辆轨迹控制、自车控制以及4D场景修改等多种应用,为自动驾驶等领域提供了强大的工具。
5. 结论
DynamicCity通过巧妙的特征降维和扩散模型的结合,实现了高效、可控且高质量的4D动态场景生成,为未来虚拟世界构建和智能系统训练提供了新的可能性。其创新性体现在高效的4D场景表示、强大的可控性以及在多个自动驾驶相关任务中的应用潜力。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台