把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源

本文将介绍如何通过偏好对齐来泛化机器人策略。

原标题：把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源
文章来源：机器之心
内容字数：4186字

GRAPE: 提升机器人策略泛化能力的偏好对齐框架

本文介绍了机器之心AIxiv专栏报道的最新研究成果——GRAPE (Generalizing Robot Policy via Preference Alignment) 框架。该研究由北卡罗来纳大学教堂山分校张子健等学者完成，旨在解决视觉-语言-动作(VLA)模型在机器人任务中泛化能力不足的问题。

1. 研究背景与问题

现有的VLA模型通常依赖于对成功执行轨迹的行为克隆，导致其在面对新任务时泛化能力较差。此外，微调方法带来的分布偏差也限制了模型对多样化操作目标（例如效率、安全性）的适应能力。

2. GRAPE框架及其优势

GRAPE是一个即插即用的算法，通过偏好对齐来提升VLA模型的泛化能力，并支持将模型对齐到任意设定的目标。它具有以下三大优势：

轨迹级强化学习对齐：GRAPE在轨迹层面利用强化学习目标对VLA模型进行对齐，赋予模型全局决策能力，而非简单的行为克隆。
隐式奖励建模：GRAPE隐式建模了成功和失败尝试中的奖励，提升了对多样化任务的泛化能力。
可扩展的偏好合成算法：GRAPE采用可扩展的偏好合成算法，通过对轨迹进行排序，将VLA模型对齐到指定目标。

GRAPE框架包含三个主要部分：轨迹级偏好优化(Trajectory-wise Preference Optimization,TPO)、定制化偏好合成(Customized Preference Synthesis)和迭代式在线对齐(Iterative Online Alignment)。TPO通过改进的DPO损失函数(TPO_Loss)进行轨迹级别偏好学习；定制化偏好合成则利用大型视觉-语言模型分解复杂任务，自动引导偏好建模过程；迭代式在线对齐则通过循环迭代不断优化对齐过程。