让现实和唯美的科幻更近一点,迈向通用灵巧操控技能的一小步。
原标题:ICLR 2025 | 机器人安灯泡、切东西都能拿捏,可操控轨迹跟踪的DexTrack来了
文章来源:机器之心
内容字数:4199字
DexTrack:迈向通用灵巧操控的轨迹跟踪方法
本文介绍了DexTrack,一种用于实现通用灵巧操控的轨迹跟踪方法。该方法旨在解决机器人灵巧操控任务中存在的挑战,例如任务多样性、对特定任务的依赖以及复杂的接触交互等。
1. 研究动机:通往通用灵巧操控的挑战
赋予机器人像人类一样的灵巧操控能力是实现具身智能的关键一步。然而,现有的方法大多集中在特定技能的学习上,例如抓取或旋转物体,难以迁移到其他任务。这些方法通常需要针对特定任务设计奖励函数,限制了通用性的实现。DexTrack旨在通过统一的任务表示和通用的轨迹跟踪控制器来克服这一挑战。
2. DexTrack:基于轨迹跟踪的通用方法
DexTrack将各种灵巧操控任务统一表示为轨迹跟踪任务。给定机器人手和物体的当前状态以及目标状态,轨迹跟踪控制器需要输出相应的动作,以使实际状态与目标状态一致。这种统一的表示方法适用于多种操控任务,例如旋转物体或使用工具。
DexTrack采用了一种结合强化学习(RL)和模仿学习(IL)的方法来训练通用轨迹跟踪控制器。通过引入高质量的轨迹跟踪数据作为监督信号,降低了RL训练的难度。同时,DexTrack还利用训练好的控制器来改进单一轨迹跟踪演示的质量,形成一个迭代优化的过程。
2.1 统一的轨迹跟踪任务表示
DexTrack将不同的操控任务统一到一个轨迹跟踪框架下,通过规划物体的轨迹,将任务转化为跟踪该轨迹的任务。这种统一的表示简化了控制器的设计。
2.2 通用轨迹的学习方法
DexTrack的训练方法结合了强化学习和模仿学习,利用高质量的轨迹跟踪数据作为监督信号来辅助强化学习的训练过程。这种方法有效地提高了轨迹跟踪控制器的学习效率和泛化能力。
奖励函数由物体轨迹跟踪奖励、手部轨迹跟踪奖励和手与物体的亲密度奖励三部分组成。此外,DexTrack还利用同伦优化(homotopy optimization)来进一步提高轨迹跟踪的效果。
3. 实验结果与分析
DexTrack在各种具有挑战性的操控任务中取得了显著的成果,包括转动灯泡、调整刀具角度、旋转锤子等。实验结果表明,DexTrack能够处理复杂的物体轨迹,并对噪声具有鲁棒性。此外,DexTrack也能够泛化到未曾见过的物体和类型。
真机实验验证了DexTrack在真实世界中的可行性,模拟器实验则进一步证明了其在复杂场景下的有效性。同伦优化方法也被证明可以有效地提高轨迹跟踪的精度。
4. 结论
DexTrack提出了一种基于轨迹跟踪的通用灵巧操控方法,通过统一的任务表示和结合RL和IL的训练方法,有效地解决了通用灵巧操控的挑战。其在真实世界和模拟环境中的实验结果都证明了该方法的有效性和鲁棒性,为未来通用灵巧操控的研究提供了新的方向。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台