迈向空间感知：从3D视觉到具身智能 | 上海AI Lab与中国科大联培博士生朱皓怡主讲预告

AIGC动态8个月前发布智猩猩GenAI

564 0 0

上海AI Lab与中国科大联培博士生朱皓怡主讲预告

原标题：迈向空间感知：从3D视觉到具身智能 | 上海AI Lab与中国科大联培博士生朱皓怡主讲预告
文章来源：智猩猩GenAI
内容字数：3201字

上海AI Lab博士生朱皓怡：迈向空间感知，从3D视觉到具身智能

本文总结了上海AI Lab与中国科学技术大培博士生朱皓怡及其团队在具身智能领域取得的三项重要研究成果，以及其即将在“智猩猩具身智能前沿讲座”第18讲中分享的内容概要。

1. 研究背景：提升具身智能的泛化能力

在复杂3D环境中提升智能体的泛化能力和实现高效学习是具身智能领域的一大挑战。朱皓怡博士及其团队的研究致力于解决这一问题，通过一系列研究成果，从3D视觉基础模型到空间感知，逐步推进具身智能的发展。

2. 三项核心研究成果

PonderV2：用于3D视觉的通用预训练范式

PonderV2是一个通用的3D视觉点云预训练框架，它以神经渲染作为代理任务，能够深度理解和感知三维真实世界。其核心优势在于：统一的预训练方式；同时支持室内外场景3D任务；灵活支持多种输入模态；同时支持高层级语义和底层重建下游任务。在11项室内外基准测试中，PonderV2超越了SOTA性能，相关论文已收录于TPAMI 2025。

Point Cloud Matters：点云数据对机器人学习和泛化能力的重要性

该研究通过OBSBench基准测试框架，系统性地评估了RGB、RGB-D和点云三种主流观测空间在机器人学习任务中的表现。研究结果表明，基于点云的方法在17个接触丰富操作任务中性能优于RGB和RGB-D方法，并有助于提升零样本泛化能力。相关论文已收录于NeurIPS 2024。

SPA：提升机器人3D空间感知能力的表征学习框架

SPA是一个全新的3D空间感知表征学习框架，它利用大规模多视角图像进行可微分神经渲染，增强了传统视觉变换器（ViT）的内在空间理解能力。在涵盖268个任务、8个模拟器和多种策略的最全面的具身表征学习评估中，SPA在多项任务中均优于10种现有的最先进表征方法，且所需训练数据更少。真实世界实验验证了SPA的有效性。

3. “智猩猩具身智能前沿讲座”第18讲内容概要

在12月27日晚7点的讲座中，朱皓怡博士将围绕“迈向空间感知：从3D视觉到具身智能”这一主题，详细讲解空间感知对于具身智能的重要性，并深入介绍PonderV2、Point Cloud Matters和SPA这三项研究成果，最后进行总结和展望。

4. 讲者简介

朱皓怡博士是上海AI Lab与中国科学技术大培博士生，师从王晓刚教授、欧阳万里教授和贺通教授，本科毕业于上海交通大学人工智能班。她的研究方向包括具身智能、机器人操作和三维视觉，致力于探索人工智能在复杂环境中的学习能力及其在机器人领域的应用。她曾在NeurIPS、TPAMI等顶级会议和期刊上发表多篇高影响力论文，其中MineDojo获NeurIPS 2022杰出论文奖。

总而言之，朱皓怡博士及其团队的研究为提升具身智能的泛化能力和学习效率提供了新的思路和方法，其研究成果对推动具身智能领域的发展具有重要意义。