浅谈空间智能与空间生成

AIGC动态7小时前发布 智东西
0 0 0

浙江大学和商汤科技的联合研究团队,提出了一个空间生成大模型框架以及实现路径。

浅谈空间智能与空间生成

原标题:浅谈空间智能与空间生成
文章来源:智东西
内容字数:6760字

空间智能:人工智能迈向3D时代的关键

本文探讨了空间智能的起源、发展现状以及未来展望,重点介绍了一种基于2D数据和强化学习协同机制的空间生成大模型框架及其实现路径。

  1. 空间智能的概念和发展

    空间智能的概念最早由霍华德·加德纳于1983年提出,指感知、改造和再创造视觉经验的能力。2018年,Andrew J. Davison教授提出“空间人工智能”的概念,将其视为视觉SLAM技术的延伸。2024年,李飞飞教授将空间智能定义为AI发展的下一个里程碑,强调AI不仅要“看见”世界,更要理解和互动。World Labs和DeepMind相继发布了基于单张图像生成3D场景的技术,标志着AI进入3D时代。

  2. 空间生成:空间智能的关键

    文章指出,空间生成是空间智能的关键组成部分。与文本和视频生成不同,高质量3D数据的获取面临巨大挑战:高成本的传感器设备和复杂算法、专业知识需求的标注过程以及对多样性和覆盖率的高要求。

  3. 基于2D数据与强化学习的协同空间生成框架

    浙江大学和商汤科技的联合研究团队提出了一种基于2D数据和强化学习的协同机制,构建自优化的3D数据生成新范式,该框架分为三个阶段:

    1) **第一阶段:3D重建大模型**: 从海量影像数据中提取场景的三维结构化表征,生成多视角一致的高质量影像数据,用于训练和优化2D生成模型。

    2) **第二阶段:强化学习优化**: 利用优化后的2D生成模型生成大规模高质量数据,并通过三维重建技术将其转换为3D场景数据,再通过强化学习机制持续优化3D空间生成大模型的性能。

    3) **第三阶段:直接2D到3D生成**: 空间生成大模型能够直接从2D图像输入生成完整、连贯且具有空间合理性和视觉真实性的3D场景。

  4. StarGen项目:框架的第一阶段实现

    StarGen项目作为该框架的第一阶段成果,将3D重建模型和视频生成模型有机结合,实现了视频生成质量和控制精度的突破。通过滑动窗口机制和时空约束,有效克服了点云重建误差累积问题,生成的视频可进一步转换为可交互的3D场景。

  5. 总结与展望

    空间智能的研究即将迎来新的爆发点,将为游戏、影视、AR/VR、具身智能等领域带来颠覆性变革。本文提出的框架和实现路径,有望推动空间生成技术以及空间智能其他模块的发展。


联系作者

文章来源:智东西
作者微信:
作者简介:智能产业新媒体!智东西专注报道人工智能主导的前沿技术发展,和技术应用带来的千行百业产业升级。聚焦智能变革,服务产业升级。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止