Relax – 小红书开源的大模型强化学习训练引擎
Relax,一款由小红书AI平台团队倾力打造的创新性开源引擎,正以前所未有的姿态革新大模型强化学习(RL)的训练范式。它专为全模态和Agentic(智能体)场景而设计,旨在解锁大模型在多模态理解与交互式决策方面的潜能。Relax的诞生,标志着大模型训练进入了一个更高效、更灵活、更具韧性的新纪元。
Relax:全模态与Agentic场景的强化学习新引擎
Relax不仅仅是一个训练框架,更是一个集成了先进技术理念的完整解决方案。它基于强大的Megatron-LM和SGLang构建,并巧妙地运用了Ray Serve的服务化容错架构以及TransferQueue异步数据总线,实现了训练过程中Rollout、Actor、Critic这三个核心角色的彻底解耦。这种设计理念使得Relax能够以前所未有的效率处理文本、图像、音频、视频等多种模态的数据,并在Qwen3-Omni-30B模型上成功验证了四模态RL训练的稳定性与收敛性。在实际应用中,Relax展现出了惊人的性能提升:采用16×H800配置的全异步模式,相较于传统的Colocate模式,训练速度提升了76%;与veRL相比,也实现了20%的性能飞跃。更令人瞩目的是,它具备分钟级的故障恢复能力,能够实现训练的弹性扩缩容,并且对R3 MoE(Mixture of Experts)模型提供了卓越的支持,已成功应用于Qwen3系列模型的后训练阶段。
Relax的核心功能:赋能下一代大模型训练
- 全模态RL训练的革新:Relax打破了模态壁垒,实现了文本、图像、音频、视频等多种模态的端到端强化学习后训练。其在Qwen3-Omni系列模型上的成功应用,证明了其处理复杂多模态数据的强大能力和稳定性。
- 极致异步训练架构:借助TransferQueue这一创新的异步数据总线,Relax实现了Rollout、Actor、Critic等关键角色的完全异步并行。这种设计有效地消除了GPU在传统训练模式下的空转等待,极大地提升了计算资源的利用率。
- 服务化容错与高可用性:Relax将RL的各个角色封装为的Ray Serve服务,每个服务都具备故障隔离能力。一旦发生故障,系统能够实现分钟级的自动恢复,确保训练过程的连续性,无需中断。
- 弹性扩缩容,灵活调度:通过HTTP REST API,Relax允许用户动态地增减Rollout推理引擎的资源。这一特性不仅支持同集群内部资源的灵活调度,更能实现跨集群的联邦推理资源管理,为大规模训练提供了强大的灵活性。
- 高效分布式权重同步:Relax内置的DCS服务支持NCCL/TCP双通道低延迟权重广播。这种机制使得在故障恢复时,无需回退到磁盘上的Checkpoint,极大地节省了时间并提高了效率。
- Agentic多轮训练的深度支持:Relax原生支持Agentic场景下的核心需求,包括多轮交互、工具调用、视觉上下文的传递(carry-over)以及Loss Masking。这使得它能够完美适配“执行→观察→决策”的闭环训练模式,为开发智能体提供了坚实的基础。
- 丰富的算法套件:Relax内置了GRPO、GSPO、SAPO以及On-Policy Distillation等多种先进的强化学习算法。同时,它还提供了规则奖励和GenRM(Generative Reward Modeling)生成式评估方法,为模型优化提供了多样化的选择。
Relax的技术原理:精巧设计,性能卓越
- 服务化异步架构的精髓:Relax将Actor、Critic、Rollout等训练角色设计为的Ray Serve服务,并通过TransferQueue进行流式微批传输。这种解耦与流水线并行的模式,彻底摆脱了传统Colocate模式下串行等待的瓶颈,实现了计算资源的极致优化。
- 全模态数据处理的流水线:Relax内置了Omni Processor,能够统一高效地处理图文、音视频等多种模态的数据。其模态感知并行与端到端异步流水线设计,配合Field-Level存储机制,允许不同模态字段的读写,完美契合RL多阶段计算的特性。
- 强大的容错与弹性机制:Relax采用了先进的两级恢复策略,能够实现无状态角色的原地重启和有状态角色的全局恢复。结合DCS分布式Checkpoint服务,它实现了GPU-GPU之间的直接权重同步,避免了磁盘IO的开销。此外,其NCCL/TCP双通道设计,更是适配了复杂的跨集群拓扑。
- 异步一致性控制的智慧:通过max_staleness参数的灵活调控,Relax在On-Policy和Off-Policy模式之间取得了完美的平衡。StreamingDataLoader支持增量消费,DCS的异步权重广播与训练计算重叠,确保了在保证策略新鲜度的同时,最大化训练吞吐量。
Relax的使用指南:轻松上手,快速部署
- 环境部署,一键启动:用户可以通过拉取官方提供的Docker镜像(已预装CUDA、PyTorch、Megatron-LM、SGLang、Ray等关键组件)来快速部署Relax环境。在启动容器时,只需挂载GPU和工作目录即可。
docker pull relaxrl/relax:latest - 数据与模型准备,高效导入:使用
hf download命令,用户可以便捷地下载所需的数据集(如dapo-math-17k、multimodal-open-r1-8k-verified)和基础模型(如Qwen3-4B、Qwen3-VL-4B、Qwen3-Omni-30B-A3B)到本地目录。 - 启动训练,释放算力:设置
EXP_DIR环境变量指向数据根目录,然后执行对应模态的bash脚本即可启动训练。- 文本任务(8卡):
bash scripts/training/text/run-qwen3-4B-8xgpu.sh - 视觉语言任务(8卡):
bash scripts/training/multimodal/run-qwen3-vl-4B-8xgpu.sh - 全模态任务(16卡/双机):
bash scripts/entrypoint/spmd-multinode.sh scripts/training/multimodal/run-qwen3-30B-A3B-omni-16xgpu.sh
- 文本任务(8卡):
- 模型导出,无缝衔接:训练完成后,用户可以使用
scripts/tools/convert_torch_dist_to_hf_bridge.py脚本将Megatron DCP格式的权重转换为HuggingFace格式,方便后续的模型部署和应用。
Relax的关键信息与使用门槛
- 开源主体与日期:Relax由小红书AI平台团队(RedAI Infra)于2026年4月15日正式开源。
- 产品定位:面向全模态与Agentic场景的高性能异步强化学习后训练引擎。
- 技术基石:基于Megatron-LM训练框架与SGLang推理引擎,并采用Ray Serve服务化架构。
- 核心架构特点:采用六层服务化设计,通过TransferQueue实现异步数据总线,DCS实现分布式权重同步。
- 性能亮点:16×H800全异步模式在性能上远超竞品,MoE模型R3开销极低。
- 模态支持能力:原生支持文本、图像、音频、视频的统一训练,已成功验证Qwen3-Omni-30B四模态的稳定收敛。
- 算法覆盖广度:内置多种RL算法,支持规则奖励与生成式评估。
- 硬件配置建议:单节点至少8×H800(4B模型),全模态训练建议16×H800跨2节点。
Relax的卓越优势:在竞争中脱颖而出
- 原生全模态支持的领先者:Relax内置了图文音视频的统一处理流水线,是少数能支持Qwen3-Omni端到端后训练的开源框架,并在长时训练中展现出稳定收敛的特性。
- 极致异步带来的性能飞跃:TransferQueue的引入彻底解放了Rollout、Actor、Critic的耦合,显著提升了训练效率,在性能上超越了主流方案。
- 服务化容错架构的安全感:基于Ray Serve的故障域设计,Relax提供了分钟级自动恢复和弹性扩缩容能力,DCS服务更是实现了秒级权重同步,大大降低了运维成本。
- Agentic原生设计,智能体训练的利器:Relax内置的多轮交互、工具调用、视觉上下文Carry-over与Loss Masking等功能,使其成为训练具备高级决策能力的智能体的理想选择。
- MoE模型训练的效率:Relax对MoE模型提供了近乎零开销的R3重放支持,相比之下,veRL的性能损耗巨大,Relax在MoE训练的成本控制上具有显著优势。
- 生产级运维的全面保障:Relax集成了HealthManager、Metrics对接(WandB/TensorBoard)和Apprise实时告警等功能,并支持HTTP API动态扩缩容,为生产环境的稳定运行提供了全方位的支持。
Relax的项目入口
- GitHub仓库:
https://github.com/redai-infra/Relax - arXiv技术论文:
https://arxiv.org/pdf/2604.11554
Relax与同类竞品的深度对比
| 对比维度 | Relax | veRL | OpenRLHF |
|---|---|---|---|
| 开发团队 | 小红书 RedAI Infra 团队 | 字节跳动/清华大学/学等联合团队 | 开源社区 (OpenRLHF Labs) |
| 架构设计 | 服务化六层架构,Ray Serve 部署,TransferQueue 异步数据总线 | HybridFlow 混合编程,3D-HybridEngine 显存原地复用,生成与训练默认耦合 | Ray Placement Groups 调度,支持 Colocate/异步模式切换,架构相对传统 |
| 异步机制 | 完全异步解耦,Rollout/Actor/Critic GPU 集群,流式微批调度 | 支持分离与 Colocate,但缺乏细粒度流水线调度,Rollout 与 Train 存在同步点 | 支持 Colocate 与异步切换,但角色间耦合度高于 Relax |
| 模态支持 | 全模态原生(文本/图像/音频/视频),验证 Qwen3-Omni 端到端训练 | 主要为文本,多模态支持尚不完善 | 文本为主,OpenRLHF-M 分支支持多模态 |
| 训练后端 | Megatron-LM (TP/PP/CP/EP) | Megatron-LM / FSDP | DeepSpeed |
| 推理后端 | SGLang | vLLM / SGLang | vLLM |
| 容错机制 | 服务级故障隔离,DCS 秒级权重同步,分钟级自动恢复,无需回退磁盘 | 单控制器统一调度,缺乏服务级隔离,故障需全局重启 | 基于 Ray Actor 容错,无服务域设计 |
| 弹性扩缩容 | HTTP REST API 动态扩缩容,支持跨集群联邦推理 | 训练过程固定配置,不支持动态扩缩容 | 支持动态资源调整,但粒度较粗 |
| 性能表现 | 16×H800 较 veRL 提速 20%,较 Colocate 提速 76%,R3 开销仅 1.9% | 全异步较 Colocate 提速 5.2×,但 R3 开销 32%,故障恢复慢 | 支持 70B+ 模型,消费级显卡友好 |
| MoE 支持 | 原生支持,Near-Zero-Overhead R3 | 支持但 R3 开销大(32%) | 支持 |
| Agentic 能力 | 原生支持多轮交互、工具调用、视觉上下文 Carry-over | 基础支持多轮,缺乏服务级会话状态管理 | 基础支持 |
| 适用场景 | 超大规模 Omni 模型 Agentic 训练、生产级高可用场景 | 万亿参数 MoE 模型、极致显存优化 | 70B+ 模型分布式训练、消费级显卡集群 |
Relax的应用场景:解锁大模型新边界
- 全模态大模型后训练的理想选择:Relax能够统一优化支持文本、图像、音频、视频输入的Omni模型,显著增强其跨模态理解与生成能力。
- Agentic智能体开发的强大平台:为训练具备多轮工具调用、环境交互与自主决策能力的智能体提供了坚实基础,完美适配“执行→观察→决策”的闭环任务。
- 视觉语言任务的深度优化:通过RL后训练,Relax能够显著提升模型在视觉问答、图像描述、视频理解等任务上的推理准确性。
- 数学与代码推理能力的提升:借助GRPO/GSPO等算法,Relax能够有效增强大模型在数学问题求解、逻辑推理及代码生成等方面的能力。
- MoE模型的高效训练方案:Relax支持Qwen3-30B-A3B等MoE架构的低成本R3重放训练,有效降低了路由误差与计算开销。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



粤公网安备 44011502001135号