本文将介绍如何通过偏好对齐来泛化机器人策略。
原标题:把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源
文章来源:机器之心
内容字数:4186字
GRAPE: 提升机器人策略泛化能力的偏好对齐框架
本文介绍了机器之心AIxiv专栏报道的最新研究成果——GRAPE (Generalizing Robot Policy via Preference Alignment) 框架。该研究由北卡罗来纳大学教堂山分校张子健等学者完成,旨在解决视觉-语言-动作(VLA)模型在机器人任务中泛化能力不足的问题。
1. 研究背景与问题
现有的VLA模型通常依赖于对成功执行轨迹的行为克隆,导致其在面对新任务时泛化能力较差。此外,微调方法带来的分布偏差也限制了模型对多样化操作目标(例如效率、安全性)的适应能力。
2. GRAPE框架及其优势
GRAPE是一个即插即用的算法,通过偏好对齐来提升VLA模型的泛化能力,并支持将模型对齐到任意设定的目标。它具有以下三大优势:
- 轨迹级强化学习对齐:GRAPE在轨迹层面利用强化学习目标对VLA模型进行对齐,赋予模型全局决策能力,而非简单的行为克隆。
- 隐式奖励建模:GRAPE隐式建模了成功和失败尝试中的奖励,提升了对多样化任务的泛化能力。
- 可扩展的偏好合成算法:GRAPE采用可扩展的偏好合成算法,通过对轨迹进行排序,将VLA模型对齐到指定目标。
GRAPE框架包含三个主要部分:轨迹级偏好优化(Trajectory-wise Preference Optimization,TPO)、定制化偏好合成(Customized Preference Synthesis)和迭代式在线对齐(Iterative Online Alignment)。TPO通过改进的DPO损失函数(TPO_Loss)进行轨迹级别偏好学习;定制化偏好合成则利用大型视觉-语言模型分解复杂任务,自动引导偏好建模过程;迭代式在线对齐则通过循环迭代不断优化对齐过程。
3. 实验结果与分析
研究人员在真机和仿真环境下对GRAPE进行了评估。真机实验涵盖了五种分布外泛化(OOD)任务,结果显示GRAPE相较于OpenVLA-SFT模型取得了显著提升(20.7%~26.7%)。仿真实验也验证了GRAPE在面对不同OOD任务时的优越性能(8.0%~19.0%)。
此外,实验还表明GRAPE能够有效地将机器人策略与多种目标(如安全性、效率)对齐,例如,在追求安全性的目标下,碰撞率降低了44.31%;在追求效率的目标下,执行轨迹长度缩短了11.15%。
4. 结论
GRAPE框架是一种即插即用的VLA模型对齐方法,能够显著提升机器人策略的泛化能力,并支持对齐到任意指定目标,在多种机器人任务场景下均有应用潜力。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台