Occ预测最新SOTA
原标题:清华开源GaussianWorld:基于高斯世界模型的3D占用预测模型 | 一作左思成博士主讲预告
文章来源:智猩猩GenAI
内容字数:2042字
清华大学提出基于高斯世界模型的流式3D占用预测模型GaussianWorld
本文总结了清华大学自动化系智能视觉实验室(IVG)博士生左思成及其团队提出的基于高斯世界模型的流式三维语义占用预测模型GaussianWorld,该模型已开源并投稿至CVPR 2025。文章重点介绍了GaussianWorld的创新点、实验结果以及相关讲座信息。
1. 现有方法的不足与GaussianWorld的创新
传统的3D占用预测方法通常采用感知-转换-融合的流程,分别处理每一帧的输入信息,再进行对齐和融合。这种方法忽略了驾驶场景的连续性和简单性。GaussianWorld则另辟蹊径,采用显式3D高斯分布作为场景表示,直接对物体进行显式和连续建模。这种方法能够更有效地利用时间信息,提高预测精度。
2. GaussianWorld的核心思想
GaussianWorld的核心思想是利用高斯世界模型来预测场景的演变。给定历史的3D高斯分布和当前的视觉输入,GaussianWorld能够预测场景如何演变以及当前的占用情况。这种基于显式3D高斯表示的方法,避免了隐式BEV/Voxel表示的局限性,实现了更精确的物体建模。
3. 实验结果与性能
在nuScenes数据集上的实验结果表明,GaussianWorld在不增加额外计算量的情况下,将单帧占用率预测提高了2%以上(mIoU),取得了SOTA的性能。这充分证明了GaussianWorld模型的有效性和优越性。
4. 智猩猩新青年讲座介绍
1月13日晚上7点,智猩猩邀请论文一作左思成博士进行主题为《基于高斯世界模型的流式3D占用预测》的讲座,内容涵盖自动驾驶中的时序建模方法、基于世界模型的感知任务范式、基于高斯世界模型的流式OCC预测以及在世界模型与端到端自动驾驶上的思考。感兴趣的读者可以通过添加小助手“陈新”报名参加。
5. 论文及代码信息
论文标题:《GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction》
论文链接:https://arxiv.org/abs/2412.10373
代码链接:https://github.com/zuosc19/GaussianWorld
6. 总结
GaussianWorld模型为3D占用预测提供了一种新的思路,其基于显式3D高斯分布的建模方法能够有效利用时间信息,提高预测精度。实验结果也验证了该模型的优越性能。该模型的开源也方便了更多研究者进行后续的研究和应用。感兴趣的读者可以关注相关的论文和代码,并参加智猩猩举办的线上讲座,了解更多细节。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。