脑子会了,手也会了
原标题:化解机器人的「幻觉」:北大发布OmniManip,VLM结合双闭环系统,3D理解能力大幅提升
文章来源:机器之心
内容字数:4833字
北京大学与智元机器人联合实验室:OmniManip架构——赋能机器人通用操作的视觉语言模型
本文介绍了北京大学与智元机器人联合实验室提出的OmniManip架构,该架构旨在解决将视觉语言模型(VLMs)应用于机器人通用操作的两大关键挑战:VLM缺乏精确的3D理解能力和无法输出低层次动作。
1. OmniManip架构概述
OmniManip通过基于对象中心的3D交互基元,将VLM的高层次推理能力转化为机器人的低层次高精度动作。为了克服大模型幻觉问题和真实环境操作的不确定性,它创新性地引入了VLM规划和机器人执行的双闭环系统设计,实现了操作性能的显著突破。该架构无需训练即可实现开放词汇操作,在各种机器人操作任务中展现出强大的零样本泛化能力。
2. 核心技术方案解析
- 基于VLM的任务解析:利用VLM强大的常识推理能力,将任务分解为多个结构化阶段,每个阶段明确指定了主动物体、被动物体和动作类型。
- 以物体为中心的交互基元作为空间约束:通过3D基座模型生成任务相关物体的3D模型和规范化空间,使VLM能够直接在该空间中采样3D交互基元,作为Action的空间约束,优化求解Active物体在Passive物体规范坐标系下的目标交互姿态。交互基元通过其在标准空间中的交互点和方向来表征,封装了满足任务约束所需的基本几何和功能属性。
- 闭环VLM规划:将目标交互姿态下的Active/Passive物体渲染成图像,由VLM评估与重采样,实现VLM对自身规划结果的闭环调整,有效减少大模型幻觉。
- 闭环机器人执行:通过物体6D姿态实时更新Active/Passive物体的位姿,转换为机械臂末端执行器的操作轨迹,实现闭环执行。相比于关键点,基于物体的6D位姿跟踪方式更稳定,对遮挡具有更强的鲁棒性。
3. 实验结果与优势
实验结果表明,OmniManip在12个真机短程任务上均展现出卓越的性能,双闭环系统设计带来了约17%的性能提升。其在交互基元提取方面,通过在物体的3D规范空间中进行采样,克服了2D图像的局限性,实现了可靠的3D交互基元提取。此外,OmniManip具有强大的拓展性和潜力,能够与high-level任务规划器结合,实现长程任务操作,并零成本迁移至不同形态的本体。
4. 未来展望
该团队即将开源高质量的泛化操作大规模数据集和对应的仿真评测基准,并已将OmniManip应用于数字资产自动标注/合成管道,实现大规模的机器人轨迹自动采集。OmniManip的出现为机器人通用操作领域带来了新的突破,具有广阔的应用前景。
项目主页:https://omnimanip.github.io
论文地址:https://arxiv.org/abs/2501.03841
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...