WebRL

WebRL是清华大学与智谱AI共同开发的在线课程强化学习框架，旨在通过开放大型语言模型（LLMs）训练高效的网络代理。该系统能够动态生成任务，利用结果监督奖励模型（ORM）评估任务的成功与否，并实施自适应强化学习策略，从而有效应对训练任务不足、反馈信号稀疏及在线学习中的策略分布漂移等挑战。WebRL在WebArena-Lite基准测试中显著提高了如Llama-3.1和GLM-4等模型的成功率，优于专有的LLM API以及以往训练的网络代理，充分显示了其在提升开源LLMs网络任务能力方面的卓越表现。

WebRL是什么

WebRL是清华大学与智谱AI携手推出的一款自我进化的在线课程强化学习框架，专注于训练基于开放大型语言模型（LLMs）的高效网络代理。该框架能够动态生成任务，并通过结果监督奖励模型（ORM）来评估任务的完成情况，配合自适应强化学习策略，从而解决了训练任务匮乏、反馈信号稀缺及在线学习中的策略分布漂移等诸多问题。

WebRL

WebRL的主要功能

自我进化课程学习：WebRL能够从失败的尝试中创造新任务，动态调整任务的难度与复杂性，以适应智能体当前的技能水平。
结果监督奖励模型（ORM）：WebRL通过训练ORM来评估任务的成功与否，提供二进制奖励信号（成功为1，失败为0），从而有效指导智能体的学习进程。
自适应强化学习策略：WebRL采用基于KL散度约束的策略更新算法，限制策略更新过程中的分布漂移，确保智能体在学习新任务时不偏离已有知识。
经验回放缓冲区：WebRL通过经验回放缓冲区保留过去的成功经验，降低灾难性遗忘风险，并在训练过程中重用这些经验。
持续性能提升：WebRL采用迭代自我进化的方法，让智能体在在线环境中持续、一致地提升其性能。

WebRL的技术原理

问题表述：WebRL将网络任务建模为有限视界的马尔可夫决策过程（MDP），明确状态、动作、奖励和转移概率。
ORM训练：通过训练LLM作为ORM，WebRL自动评估代理的执行轨迹是否成功完成任务，提供必要的反馈信号。
强化学习：在网络环境中，WebRL利用自我进化的课程学习策略动态生成任务，并通过KL约束策略更新算法防止策略分布的剧烈漂移。
经验回放：使用经验回放缓冲区保留先前的知识，降低灾难性遗忘的风险，并避免对错误轨迹的中间状态进行不准确估计。
自我进化的课程学习策略：WebRL实施生成与过滤的双重流程，生成日益具有挑战性的任务，同时确保这些任务仍适合代理当前的能力，基于In-breadth evolving技术创建新指令。
策略更新：在策略更新过程中，WebRL考虑新旧策略之间的KL散度，以确保策略平稳过渡，避免因策略更新而导致性能下降。