突破自动驾驶新纪元：港中文、港科大与华为携手推出MagicDriveDiT！

AIGC动态2年前 (2024)发布量子位

基于DiT架构设计

原标题：突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT
文章来源：量子位
内容字数：2317字

MagicDriveDiT：自动驾驶视频生成的新标准

随着自动驾驶技术的发展，生成高质量且可控的街景视频成为了开发自动驾驶应用的关键。香港中文大学、香港科技大学与华为联合推出了MagicDriveDiT，旨在重新定义自动驾驶视频生成的标准。该系统支持昇腾Ascend NPU与NVIDIA GPU的训练和推理，利用DiT架构和流匹配技术，显著提升了视频生成的质量与复杂场景的表现。

1. 精确场景控制

MagicDriveDiT的一个显著特点是其精确的场景控制能力。该系统能够生成多种复杂的行驶路况，例如无信号灯路口让行、路边起步变道和夜间行车等。此外，MagicDriveDiT支持对单个物体和复杂自车3D轨迹的精确控制，极大地满足了自动驾驶应用的需求。

2. 整体设计框架

MagicDriveDiT引入了跨视角一致性模块，并在STDiT3基础上提出了MVDiT模块，以处理多视角视频合成。该系统的设计还包括额外的控制分支和交叉注意力机制，以处理不同类型的控制信号。通过采用空间-时间条件编码技术，MagicDriveDiT实现了对时空潜变量的精确控制，使生成的视频在视觉效果上更为逼真。

3. 渐进式训练策略

在训练方法上，MagicDriveDiT发现提升视频分辨率对生成内容质量的影响显著。因此，该系统采用了分辨率优先的渐进式训练策略，加速模型训练收敛，并逐渐适配更高分辨率和更长的视频。通过混合数据训练，MagicDriveDiT还具备了视频长度外推的能力，能够直接生成超越训练长度的视频。

4. 实验结果与未来展望

实验结果显示，MagicDriveDiT在生成真实街景视频方面超越了现有方法，不仅在分辨率上取得了突破，在帧数上也实现了显著提升。该系统的成功为自动驾驶技术的发展提供了强有力的支持，并为未来的研究奠定了基础。

更多信息可以参考论文和项目地址：论文链接，项目地址。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # MagicDriveDiT # 人工智能 # 华为 # 自动驾驶 # 视频生成

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

突破自动驾驶新纪元：港中文、港科大与华为携手推出MagicDriveDiT！

基于DiT架构设计

MagicDriveDiT：自动驾驶视频生成的新标准

1. 精确场景控制

2. 整体设计框架

3. 渐进式训练策略

4. 实验结果与未来展望

联系作者

腾讯Sora开源引爆创意浪潮，官方暗示下月推出惊艳图生视频！

豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

相关文章

暂无评论