ICRA 2025|清华x光轮:自驾世界模型生成和理解事故场景

AIGC动态24小时前发布 机器之心
60 0 0

可以描述事故发生过程并提供预防建议

ICRA 2025|清华x光轮:自驾世界模型生成和理解事故场景

原标题:ICRA 2025|清华x光轮:自驾世界模型生成和理解事故场景
文章来源:机器之心
内容字数:4528字

光轮智能AVD2框架:提升自动驾驶事故场景理解与安全能力

近年来,自动驾驶技术飞速发展,但复杂交通环境下的事故理解和预防仍是巨大挑战。针对这一问题,光轮智能(Lightwheel)联合清华大学、香港科技大学等高校的研究团队,提出了创新的AVD2 (Accident Video Diffusion for Accident Video Description) 框架,旨在提升自动驾驶系统对事故场景的理解和安全能力。

  1. AVD2框架概述

    AVD2 框架包含视频生成和事故分析两大部分。通过生成与自然语言描述高度一致的事故视频,并结合自然语言解释,AVD2能够更深入地理解事故场景。该框架还贡献了EMM-AU数据集,以推动事故分析和预防研究。

  2. 视频生成模块

    AVD2利用Open-Sora 1.2模型,通过两阶段微调优化:第一阶段基于MM-AU数据集进行预训练,第二阶段利用2000个详细事故场景视频进行微调,确保生成视频与真实场景高度一致。此外,还使用RRDBNet模型进行超分辨率处理,提升视频质量。

  3. 事故分析模块

    事故分析模块结合视频理解和自然语言处理技术,完成车辆行为描述和原因分析(以及规避方法)两个任务。利用Vision-Language Transformer进行多任务学习,生成描述车辆动作的句子,解释动作原因并提出规避建议。多任务学习方法增强了描述与推理之间的关联性,提高了整体性能。

  4. 模型架构与关键技术

    AVD2采用SwinBERT处理输入视频,生成视频特征,并输入到不同的任务模块进行预测和描述生成。SCST(自我批判序列训练)机制用于优化生成文本质量。生成和分析模块紧密配合,提升了系统的透明度和可解释性。

  5. 实验结果与可视化

    实验结果显示,AVD2在多种评测指标上优于ADAPT框架。可视化结果展示了AVD2对事故场景的分析能力,例如识别车辆变道未打转向灯、车速过快等危险行为。

  6. 未来展望

    团队计划进一步优化AVD2框架,并将其应用于光轮智能的端到端自动驾驶应用中,促进自动驾驶技术在产业界的安全落地。

总而言之,AVD2框架通过结合视频生成和事故分析技术,为提升自动驾驶系统的事故理解和预防能力提供了新的思路和方法,其在提高自动驾驶安全性方面具有重要意义。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...