具身智能体三维感知新链条，TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：具身智能体三维感知新链条，TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」
关键字：动作,任务,视角,模型,操作
文章来源：机器之心
内容字数：7401字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com当我们拿起一个机械手表时，从正面会看到表盘和指针，从侧面会看到表冠和表链，打开手表背面会看到复杂的齿轮和机芯。每个视角都提供了不同的信息，将这些信息综合起来才能理解操作对象的整体三维。
想让机器人在现实生活中学会执行复杂任务，首先需要使机器人理解操作对象和作对象的属性，以及相应的三维操作空间，包括物置、形状、物体之间的遮挡关系，以及对象与环境的关系等。
其次，机器人需要理解自然语言指令，对未来动作进行长期规划和高效执行。使机器人具备从环境感知到动作预测的能力是具有挑战性的。
近期，中国电信人工智能研究院（TeleAI）李学龙教授团队联合上海人工智能实验室、清华大学等单位，模拟人「感知—记忆—思维—想象」的认知过程，提出了多视角融合驱动的通用具身操作算法

原文链接：具身智能体三维感知新链条，TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」