RAGEN

RAGEN – 训练大模型推理 Agent 的开源强化学习框架

RAGEN

RAGEN是一个开源的强化学习框架，专门用于在交互式和随机环境中训练大型语言模型（LLM）的推理代理。该框架基于StarPO（状态-思考-行动-奖励策略优化）模型，通过多轮交互优化整个轨迹，并支持PPO、GRPO等多种优化策略。

RAGEN是什么

RAGEN是一个开源的强化学习框架，旨在训练大型语言模型（LLM）推理代理，适用于交互式和随机环境。它基于StarPO（状态-思考-行动-奖励政策优化）框架，能够通过多轮交互来优化整个交互路径，有效提升推理能力。RAGEN使用马尔可夫决策过程（MDP）形式化代理与环境的互动，引入渐进式奖励归一化策略，从而有效应对多轮强化学习中的不稳定性。该框架的代码结构经过优化，分为环境管理器、上下文管理器和代理模块，便于扩展和实验。RAGEN支持多种环境，如Sokoban和FrozenLake，展现出良好的泛化能力。

RAGEN的主要功能

多轮交互与轨迹优化：通过StarPO框架，RAGEN将代理与环境的互动形式化为马尔可夫决策过程（MDP），优化整个交互轨迹，而不仅仅是单步动作。这种全轨迹优化策略能够帮助代理在复杂环境中做出更加合理的决策。
强化学习算法支持：RAGEN兼容多种强化学习算法，包括PPO、GRPO和BRPO等，为研究者提供了灵活的算法选项。
易于扩展的环境支持：RAGEN支持多种环境，如Sokoban和FrozenLake，并提供添加自定义环境的接口，方便研究人员进行实验。
稳定性和效率提升：RAGEN通过基于方差的轨迹过滤、引入“评论家”以及解耦裁剪等技术，有效提升了训练的稳定性和效率。

RAGEN的技术原理

MDP形式化：RAGEN将代理与环境的互动形式化为马尔可夫决策过程（MDP），其中状态和动作为token序列，支持LLM对环境动态进行推理。
StarPO框架：该框架通过两个交替阶段进行训练：
- Rollout阶段：在给定初始状态的情况下，LLM生成多条推理引导的交互轨迹，每一步接收轨迹历史并生成动作。
- Update阶段：生成轨迹后，利用重要性采样优化整个轨迹的预期奖励，进行非单步优化，以实现长远推理。
优化策略：StarPO支持多种强化学习算法，如PPO（近端策略优化）和GRPO（归一化奖励策略优化），适应不同的训练需求。
渐进式奖励归一化策略：为了解决多轮训练中的不稳定性，RAGEN引入了基于不确定性的过滤、去除KL惩罚和不对称PPO裁剪等策略。
模块化设计：RAGEN采用模块化架构，包括环境状态管理器、上下文管理器和代理模块，便于扩展和定制。