空间智能如何构建？牛津大学博士论文《深度具身智能体的空间推理与规划》230页pdf

AIGC动态欢迎阅读

原标题：空间智能如何构建？牛津大学博士论文《深度具身智能体的空间推理与规划》230页pdf
关键字：策略,任务,智能,环境,选项
文章来源：人工智能学家
内容字数：0字

内容摘要：

来源：专知
人类能够通过规划、推理和预测行动结果，执行具有长期目标的复杂任务。为了让具身智能体（如机器人）实现类似的能力，它们必须获得可以迁移到新情境中的环境知识，并在有限的试错预算下学习。基于学习的方法，如深度强化学习，可以从数据中发现并利用应用领域的内在规律和特征，并不断提高其性能，但这通常需要大量的训练数据。本论文探讨了用于空间推理与规划任务的数据驱动技术的发展，重点在于提高学习效率、可解释性以及在新场景中的可迁移性。
本论文的主要贡献包括四个方面：
CALVIN：一种微分规划器，能够学习可解释的世界模型用于长期规划。CALVIN成功地在部分可观测的三维环境中（如迷宫和室内房间）导航，通过从专家示范中学习奖励（目标和障碍）以及状态转换（机器人动力学）。
SOAP：一种强化学习算法，用于无监督地发现长远任务的宏动作（选项）。选项将任务划分为子任务，并实现子任务的稳定执行。SOAP在基于历史条件的走廊任务以及经典基准（如Atari游戏）中表现出稳健的性能。
LangProp：一个使用大型语言模型（LLM）进行代码优化的框架，通过将代码视为可学习的策略，解决具身智能体问题。该框架在CA

原文链接：空间智能如何构建？牛津大学博士论文《深度具身智能体的空间推理与规划》230页pdf