PUGS:基于3D高斯溅射零样本物理理解
原标题:Zero-shot重建物理高斯资产,清华&光轮视觉大模型让机器人理解物理属性|ICRA 2025
文章来源:量子位
内容字数:6136字
PUGS:无需训练,零样本理解物体物理属性
准确理解物体的物理属性对于机器人操作至关重要,然而现有方法常面临预测结果碎片化、属性不连续等问题。光轮智能与清华AIR、同济大学等机构合作,提出了一种基于3D高斯溅射的全新方法——PUGS(Zero-shot Physical Understanding with Gaussian Splatting),能够从多视角图像中零样本地重建物体并重建其物理属性。
1. PUGS框架概述
PUGS框架包含三个阶段:形状与区域感知的3D高斯溅射(3DGS)重建、基于视觉语言模型(VLM)的物理属性预测以及基于区域特征的属性传播。对于物体级别的物理属性(如质量),还包含高斯体积积分模块。
PUGS以多视角图像为输入,允许指定需要预测的属性(密度、硬度、杨氏模量等),输出包含RGB信息和任意位置物理属性的物体重建结果。
2. 形状与区域感知的3DGS重建
PUGS利用3DGS进行物体重建,并引入几何感知正则化损失和稀疏损失来解决原始3DGS重建现的“Floater”问题,提高几何精度。同时,引入区域感知特征对比损失,通过对比学习训练高斯分布的特征,增强区域区分能力,提高物理属性预测准确性。
3. 基于VLM的物理属性预测
PUGS直接利用VLM对多视角图像进行材质和物理属性预测,避免了NeRF2Physics中图像到文本转换的信息丢失。VLM输出物体可能的材质及其物理属性范围,这些属性随后通过CLIP特征传播到重建的3DGS中。
4. 基于区域特征的属性传播
PUGS利用CLIP特征和区域感知特征进行属性传播。首先,从3DGS中随机采样高斯点,计算其投影到图像上的patch对应的CLIP特征,并与候选材质进行相似性计算,分配材质到高斯点。然后,利用区域感知特征进行属性传播,使预测结果更均匀精确。
5. 高斯体积积分
对于物体级别属性(如质量),PUGS使用高斯体积积分模块进行计算。它将每个3D高斯视为一个3D椭球体,结合不透明度和密度值进行累积计算,得到初步体积预测。为了提高精度,PUGS引入“pure volume”概念,并通过VLM获取该值来修正最终预测结果。
6. 实验结果与结论
定性和定量实验结果表明,PUGS在材质预测和物体质量估计方面显著优于NeRF2Physics,预测结果更准确合理。在机器人抓取实验中,PUGS准确预测的杨氏模量确保了抓取成功,而NeRF2Physics的错误预测导致了抓取失败。消融实验也验证了各个模块的有效性。
PUGS能够准确重建物体的几何形状并保持物理属性预测的材质一致性,为实际机器人应用提供了重要支撑,重建结果也可作为携带物理属性的资产用于其他下游任务。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破