涉及多篇CVPR'24 Highlight！通研院研究员贾宝雄主讲具身智能视角下的三维场景理解、生成与交互

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：涉及多篇CVPR'24 Highlight！通研院研究员贾宝雄主讲具身智能视角下的三维场景理解、生成与交互
关键字：场景,智能,数据,猩猩,论文
文章来源：算法邦
内容字数：0字

内容摘要：

智猩猩机器人新青年讲座由AI与硬科技知识分享社区「智猩猩」全新企划，致力于邀请全球知名高校、顶尖研究机构以及优秀企业的青年学者，主讲在具身智能、强化学习、多智能体系统、建模仿真等机器人关键前沿技术上的研究成果和开发实践。具身智能的发展离不开对物理世界的理解与交互，这些理解与交互受限于三维数据的获取，尤其是与语义对齐的三维场景数据。这在很大程度上限制了现有模型及方法在具身智能方向上的有效性。
针对当前问题，北京通研院BIGAI通用视觉实验室研究员贾宝雄博士等研究人员提出一个百万级别的3D视觉语言数据集SceneVerse，并提出了Grounded Pre-training for Scenes (GPS)预训练框架，与SceneVerse相关成果收录于ECCV 2024。他们通过SceneVerse试图汇集现有大部分真实三维场景数据，并开发基于大语言模型的工具链进行有效地三维场景-语义数据生成，通过scaling来提升现有模型在三维场景理解方向上的效果。然而，想要完成可泛化的具身智能体训练，尤其是涉及与场景的真实交互，需要大量的真实数据。但真实扫描数据很难被放入模拟器中，因此在数据量和质

原文链接：涉及多篇CVPR'24 Highlight！通研院研究员贾宝雄主讲具身智能视角下的三维场景理解、生成与交互