颠覆未来出行：港中文、港科大与华为联手揭晓MagicDriveDiT的惊艳之旅

基于DiT架构设计

原标题：突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT
文章来源：量子位
内容字数：2317字

随着自动驾驶技术的发展，高质量的街景视频生成成为了满足数据需求的重要环节。香港中文大学、香港科技大学与华为联合推出的MagicDriveDiT，正是为了解决这一长期挑战而设计的，旨在重新定义自动驾驶视频生成的标准。

MagicDriveDiT基于DiT架构，通过流匹配技术和渐进式训练策略，提升了系统的扩展能力，能够有效生成复杂的场景和长时间的视频。该框架支持昇腾Ascend NPU和NVIDIA GPU进行训练和推理，为不同硬件平台提供了灵活性。

MagicDriveDiT的另一大亮点是其精确的场景控制能力。它能够生成多种复杂的行驶路况，例如无信号灯路口的让行、路边起步变道和夜间行车等。同时，MagicDriveDiT支持单个物体的精确控制及复杂的自车3D轨迹控制，极大丰富了生成内容的多样性。

在架构设计上，MagicDriveDiT引入了跨视角一致性模块，并提出了MVDiT模块用于处理多视角视频合成。此外，通过空间-时间条件编码技术，该方法实现了对时空潜变量的精确控制，克服了传统2DVAE编码在3DVAE时空控制中的局限性。

MagicDriveDiT采用分辨率优先的渐进式训练策略，显著提高了视频生成质量和训练效率。这种策略不仅加速了模型的收敛，还使得模型能够适应更高分辨率和更长时间的视频生成。此外，通过混合数据训练，MagicDriveDiT具备了视频长度外推的能力，可以生成超出训练长度的视频。

实验结果表明，MagicDriveDiT在生成真实街景视频方面的表现优于现有方法，尤其在分辨率和帧数上取得了显著提升，达到了前所未有的视频生成效果。这一成果为自动驾驶技术的发展提供了强大的数据支持，未来有望推动更多应用的落地。

更多信息请参考论文和项目地址：论文链接，项目地址。

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

文章版权归作者所有，未经允许请勿转载。

暂无评论...