首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统

AIGC动态3年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统
关键字：解读,零件,模型,机器人,物体
文章来源：机器之心
内容字数：9771字

内容摘要：

机器之心专栏
机器之心编辑部这几天，家务活都被机器人抢着干了。
前脚来自斯坦福的会用锅的机器人刚刚登场，后脚又来了个会用咖啡机的机器人 Figure-01 。只需给它观看示范视频，加上10个小时的训练，Figure-01 就能学会使用咖啡机，放咖啡胶囊到按下启动键，一气呵成。
但是想要让机器人无师自通，第一次见到各式各样的家具家电，就能在没有示范视频的情况下熟练使用。这是个难以解决的问题，不仅需要机器人拥有强大的视觉感知、决策规划能力，更需要精确的操纵技能。
现在，一个三维具身图文大模型系统为以上难题提供了新思路。该系统将基于三维视觉的精准几何感知模型与擅长规划的二维图文大模型结合了起来，无需样本数据，即可解决与家具家电有关的复杂长程任务。
这项研究由斯坦福大学的 Leonidas Guibas 教授、北京大学的王鹤教授团队，与智源人工智能研究院合作完成。论文链接：https://arxiv.org/abs/2312.01307
项目主页：https://geometry.stanford.edu/projects/sage/
代码：https://github.com/geng-ha

原文链接：首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统