Relax

Relax – 小红书开源的大模型强化学习训练引擎

Relax，一款由小红书AI平台团队倾力打造的创新性开源引擎，正以前所未有的姿态革新大模型强化学习（RL）的训练范式。它专为全模态和Agentic（智能体）场景而设计，旨在解锁大模型在多模态理解与交互式决策方面的潜能。Relax的诞生，标志着大模型训练进入了一个更高效、更灵活、更具韧性的新纪元。

Relax：全模态与Agentic场景的强化学习新引擎

Relax不仅仅是一个训练框架，更是一个集成了先进技术理念的完整解决方案。它基于强大的Megatron-LM和SGLang构建，并巧妙地运用了Ray Serve的服务化容错架构以及TransferQueue异步数据总线，实现了训练过程中Rollout、Actor、Critic这三个核心角色的彻底解耦。这种设计理念使得Relax能够以前所未有的效率处理文本、图像、音频、视频等多种模态的数据，并在Qwen3-Omni-30B模型上成功验证了四模态RL训练的稳定性与收敛性。在实际应用中，Relax展现出了惊人的性能提升：采用16×H800配置的全异步模式，相较于传统的Colocate模式，训练速度提升了76%；与veRL相比，也实现了20%的性能飞跃。更令人瞩目的是，它具备分钟级的故障恢复能力，能够实现训练的弹性扩缩容，并且对R3 MoE（Mixture of Experts）模型提供了卓越的支持，已成功应用于Qwen3系列模型的后训练阶段。

Relax的核心功能：赋能下一代大模型训练

全模态RL训练的革新：Relax打破了模态壁垒，实现了文本、图像、音频、视频等多种模态的端到端强化学习后训练。其在Qwen3-Omni系列模型上的成功应用，证明了其处理复杂多模态数据的强大能力和稳定性。
极致异步训练架构：借助TransferQueue这一创新的异步数据总线，Relax实现了Rollout、Actor、Critic等关键角色的完全异步并行。这种设计有效地消除了GPU在传统训练模式下的空转等待，极大地提升了计算资源的利用率。
服务化容错与高可用性：Relax将RL的各个角色封装为的Ray Serve服务，每个服务都具备故障隔离能力。一旦发生故障，系统能够实现分钟级的自动恢复，确保训练过程的连续性，无需中断。
弹性扩缩容，灵活调度：通过HTTP REST API，Relax允许用户动态地增减Rollout推理引擎的资源。这一特性不仅支持同集群内部资源的灵活调度，更能实现跨集群的联邦推理资源管理，为大规模训练提供了强大的灵活性。
高效分布式权重同步：Relax内置的DCS服务支持NCCL/TCP双通道低延迟权重广播。这种机制使得在故障恢复时，无需回退到磁盘上的Checkpoint，极大地节省了时间并提高了效率。
Agentic多轮训练的深度支持：Relax原生支持Agentic场景下的核心需求，包括多轮交互、工具调用、视觉上下文的传递（carry-over）以及Loss Masking。这使得它能够完美适配“执行→观察→决策”的闭环训练模式，为开发智能体提供了坚实的基础。
丰富的算法套件：Relax内置了GRPO、GSPO、SAPO以及On-Policy Distillation等多种先进的强化学习算法。同时，它还提供了规则奖励和GenRM（Generative Reward Modeling）生成式评估方法，为模型优化提供了多样化的选择。

Relax的技术原理：精巧设计，性能卓越

服务化异步架构的精髓：Relax将Actor、Critic、Rollout等训练角色设计为的Ray Serve服务，并通过TransferQueue进行流式微批传输。这种解耦与流水线并行的模式，彻底摆脱了传统Colocate模式下串行等待的瓶颈，实现了计算资源的极致优化。
全模态数据处理的流水线：Relax内置了Omni Processor，能够统一高效地处理图文、音视频等多种模态的数据。其模态感知并行与端到端异步流水线设计，配合Field-Level存储机制，允许不同模态字段的读写，完美契合RL多阶段计算的特性。
强大的容错与弹性机制：Relax采用了先进的两级恢复策略，能够实现无状态角色的原地重启和有状态角色的全局恢复。结合DCS分布式Checkpoint服务，它实现了GPU-GPU之间的直接权重同步，避免了磁盘IO的开销。此外，其NCCL/TCP双通道设计，更是适配了复杂的跨集群拓扑。
异步一致性控制的智慧：通过max_staleness参数的灵活调控，Relax在On-Policy和Off-Policy模式之间取得了完美的平衡。StreamingDataLoader支持增量消费，DCS的异步权重广播与训练计算重叠，确保了在保证策略新鲜度的同时，最大化训练吞吐量。

Relax的使用指南：轻松上手，快速部署

环境部署，一键启动：用户可以通过拉取官方提供的Docker镜像（已预装CUDA、PyTorch、Megatron-LM、SGLang、Ray等关键组件）来快速部署Relax环境。在启动容器时，只需挂载GPU和工作目录即可。
docker pull relaxrl/relax:latest
数据与模型准备，高效导入：使用hf download命令，用户可以便捷地下载所需的数据集（如dapo-math-17k、multimodal-open-r1-8k-verified）和基础模型（如Qwen3-4B、Qwen3-VL-4B、Qwen3-Omni-30B-A3B）到本地目录。
启动训练，释放算力：设置EXP_DIR环境变量指向数据根目录，然后执行对应模态的bash脚本即可启动训练。
- 文本任务（8卡）：
  bash scripts/training/text/run-qwen3-4B-8xgpu.sh
- 视觉语言任务（8卡）：
  bash scripts/training/multimodal/run-qwen3-vl-4B-8xgpu.sh
- 全模态任务（16卡/双机）：
  bash scripts/entrypoint/spmd-multinode.sh scripts/training/multimodal/run-qwen3-30B-A3B-omni-16xgpu.sh
模型导出，无缝衔接：训练完成后，用户可以使用scripts/tools/convert_torch_dist_to_hf_bridge.py脚本将Megatron DCP格式的权重转换为HuggingFace格式，方便后续的模型部署和应用。

Relax的关键信息与使用门槛

开源主体与日期：Relax由小红书AI平台团队（RedAI Infra）于2026年4月15日正式开源。
产品定位：面向全模态与Agentic场景的高性能异步强化学习后训练引擎。
技术基石：基于Megatron-LM训练框架与SGLang推理引擎，并采用Ray Serve服务化架构。
核心架构特点：采用六层服务化设计，通过TransferQueue实现异步数据总线，DCS实现分布式权重同步。
性能亮点：16×H800全异步模式在性能上远超竞品，MoE模型R3开销极低。
模态支持能力：原生支持文本、图像、音频、视频的统一训练，已成功验证Qwen3-Omni-30B四模态的稳定收敛。
算法覆盖广度：内置多种RL算法，支持规则奖励与生成式评估。
硬件配置建议：单节点至少8×H800（4B模型），全模态训练建议16×H800跨2节点。

Relax的卓越优势：在竞争中脱颖而出

原生全模态支持的领先者：Relax内置了图文音视频的统一处理流水线，是少数能支持Qwen3-Omni端到端后训练的开源框架，并在长时训练中展现出稳定收敛的特性。
极致异步带来的性能飞跃：TransferQueue的引入彻底解放了Rollout、Actor、Critic的耦合，显著提升了训练效率，在性能上超越了主流方案。
服务化容错架构的安全感：基于Ray Serve的故障域设计，Relax提供了分钟级自动恢复和弹性扩缩容能力，DCS服务更是实现了秒级权重同步，大大降低了运维成本。
Agentic原生设计，智能体训练的利器：Relax内置的多轮交互、工具调用、视觉上下文Carry-over与Loss Masking等功能，使其成为训练具备高级决策能力的智能体的理想选择。
MoE模型训练的效率：Relax对MoE模型提供了近乎零开销的R3重放支持，相比之下，veRL的性能损耗巨大，Relax在MoE训练的成本控制上具有显著优势。
生产级运维的全面保障：Relax集成了HealthManager、Metrics对接（WandB/TensorBoard）和Apprise实时告警等功能，并支持HTTP API动态扩缩容，为生产环境的稳定运行提供了全方位的支持。

Relax的项目入口

GitHub仓库：
https://github.com/redai-infra/Relax
arXiv技术论文：
https://arxiv.org/pdf/2604.11554

Relax与同类竞品的深度对比

对比维度	Relax	veRL	OpenRLHF
开发团队	小红书 RedAI Infra 团队	字节跳动/清华大学/学等联合团队	开源社区 (OpenRLHF Labs)
架构设计	服务化六层架构，Ray Serve 部署，TransferQueue 异步数据总线	HybridFlow 混合编程，3D-HybridEngine 显存原地复用，生成与训练默认耦合	Ray Placement Groups 调度，支持 Colocate/异步模式切换，架构相对传统
异步机制	完全异步解耦，Rollout/Actor/Critic GPU 集群，流式微批调度	支持分离与 Colocate，但缺乏细粒度流水线调度，Rollout 与 Train 存在同步点	支持 Colocate 与异步切换，但角色间耦合度高于 Relax
模态支持	全模态原生（文本/图像/音频/视频），验证 Qwen3-Omni 端到端训练	主要为文本，多模态支持尚不完善	文本为主，OpenRLHF-M 分支支持多模态
训练后端	Megatron-LM (TP/PP/CP/EP)	Megatron-LM / FSDP	DeepSpeed
推理后端	SGLang	vLLM / SGLang	vLLM
容错机制	服务级故障隔离，DCS 秒级权重同步，分钟级自动恢复，无需回退磁盘	单控制器统一调度，缺乏服务级隔离，故障需全局重启	基于 Ray Actor 容错，无服务域设计
弹性扩缩容	HTTP REST API 动态扩缩容，支持跨集群联邦推理	训练过程固定配置，不支持动态扩缩容	支持动态资源调整，但粒度较粗
性能表现	16×H800 较 veRL 提速 20%，较 Colocate 提速 76%，R3 开销仅 1.9%	全异步较 Colocate 提速 5.2×，但 R3 开销 32%，故障恢复慢	支持 70B+ 模型，消费级显卡友好
MoE 支持	原生支持，Near-Zero-Overhead R3	支持但 R3 开销大（32%）	支持
Agentic 能力	原生支持多轮交互、工具调用、视觉上下文 Carry-over	基础支持多轮，缺乏服务级会话状态管理	基础支持
适用场景	超大规模 Omni 模型 Agentic 训练、生产级高可用场景	万亿参数 MoE 模型、极致显存优化	70B+ 模型分布式训练、消费级显卡集群