SWEET-RL

SWEET-RL – Meta 推出的多轮强化学习框架

SWEET-RL

SWEET-RL是什么

SWEET-RL是Meta开发的一款多轮强化学习框架，旨在训练大型语言模型（LLM）代理以执行协作推理任务。该框架通过利用训练过程中的额外信息（例如参考解决方案）来优化“批评者”模型，该模型为每一步提供奖励，从而帮助“行动者”模型更有效地进行信用分配和策略优化。在ColBench基准测试中，SWEET-RL表现卓越，相较于其他先进算法，在后端编程和前端设计任务的成功率和胜率上提升了6%，使得Llama-3.1-8B模型的表现与顶尖模型如GPT-4o相当，甚至超越。

SWEET-RL的主要功能

优化复杂交互任务：SWEET-RL特别针对需要多轮交互的复杂任务进行优化，例如后端编程和前端设计。
精准信用分配：通过引入训练时的额外信息（如参考解决方案），为每一步提供奖励，能够准确评估每个动作的价值，从而有效解决多轮任务中的信用分配问题。
广泛任务支持：支持处理多种复杂的前端设计任务，展现出其在不同类型任务中的通用性和适应性。

SWEET-RL的技术原理

利用额外信息进行训练：SWEET-RL通过训练时的额外信息（如参考解决方案）来优化“批评者”模型。批评者模型为每一步提供奖励，助力“行动者”模型更好地进行信用分配。
Bradley-Terry目标函数：SWEET-RL使用Bradley-Terry目标函数直接训练优势函数，该函数评估每个动作在当前状态下的有效性，从而避免了先训练价值函数的复杂性，与预训练的LLM更好地对齐。
不对称信息架构：采用不对称的演员-评论家结构，批评者模型能够访问训练时的额外信息，而行动者模型则访问交互历史，使得批评者能更准确地评估动作的价值，行动者因此能根据评估优化策略。
参数化优势函数：将优势函数参数化为每个动作的平均对数概率，依据轨迹级别的Bradley-Terry目标进行训练。这种参数化方式与LLM的预训练目标高度一致，增强了模型的泛化能力。