AReaL 2.0

AReaL 2.0 – 蚂蚁等开源的Agent在线强化学习基础架构

AReaL 2.0：赋能已部署Agent的持续自我演进之路

在人工智能飞速发展的今天，Agent（智能体）的部署已不再是终点，而是持续优化的起点。AReaL 2.0，这一由蚂蚁集团携手香港科技大学和清华大学共同打造的Agent在线强化学习基础架构，正以前所未有的方式，让已投入使用的Agent能够汲取真实交互的养分，实现真正的自我迭代与成长。

AReaL 2.0的独特之处

AReaL 2.0并非一个简单的训练框架，而是一个贯穿Agent生命周期的完整基础设施。它巧妙地将生产环境中的海量会话数据转化为可供Agent学习的宝贵经验，而这一切，无需对现有的Agent代码进行大刀阔斧的修改，也无需已有的业务系统。其核心在于三大支柱的协同作用：精心设计的轨迹数据协议、企业级的智能数据代理，以及智能的演进控制平面。值得一提的是，AReaL 2.0已荣幸加入PyTorch基金会，并积极拥抱昇腾NPU适配，展现了其开放与前瞻的生态战略。

AReaL 2.0的核心能力解析

在线RL闭环构建：AReaL 2.0能够自动化地捕捉Agent在真实世界中的每一次互动，将其转化为可用于训练的经验数据，从而形成一个从“执行”到“学习”的无缝闭环，实现Agent能力的持续提升。
精细化轨迹数据采集：通过独特的ATDP（Agent Trajectory Data Protocol）协议，AReaL 2.0能够以步骤为单位，完整记录Agent的决策过程，包括它所观察到的信息、采取的动作、动作的结果以及相关的元数据，为Agent的每一次“思考”都留下清晰的印记。
企业级数据治理保障：其强大的Data Proxy（数据代理）扮演着关键角色，它负责在数据进入训练流程前，完成必要的拦截、脱敏、权限控制和轨迹持久化工作，确保所有训练数据都符合严格的企业级合规要求。
智能化的演进控制平面：Agent的“进化”不再是盲目的。演进控制平面依据轨迹统计数据、用户修正率、失败案例分析等多维度信号，精准判断Agent的更新方向，是进行模型优化、记忆写入，还是调整工具使用策略。
微服务化的灵活架构：AReaL 2.0采用了高度解耦的微服务架构，将训练、推理、权重更新等核心功能拆分为Gateway、Router、Data Proxy等的组件，便于部署、扩展和维护。

AReaL 2.0的底层技术原理

Agent Trajectory Data Protocol (ATDP)：这一面向智能体的轨迹协议，将复杂任务的执行过程分解为可追溯、可回放的学习单元。它不仅记录Agent的观察、内部状态、动作选择、结果和奖励反馈，还包含了模型版本、工具版本、租户信息、成本等关键元数据，能够清晰地回答“哪一次检索、哪个工具调用对任务成败产生了影响”等核心问题。
Agentic Data Proxy：作为Agent与外部系统（模型、工具、检索系统、人类反馈等）之间的关键数据层，Agentic Data Proxy负责拦截、采集、脱敏、权限管理、轨迹持久化、奖励收集和回放管理。在数据进入训练队列之前，就完成了精细化的治理，区分了可见字段、训练可用数据以及仅供调试审计的数据。
Agent Evolution Control Plane：这个智能体演进的“大脑”，将“何时更新、更新什么”这样的决策系统化、可治理化。它综合考量轨迹统计、用户修正率、工具失败簇、评估器得分、成本信号、安全约束以及分布漂移等多种因素，来决定演进的侧重点，是模型RL、偏好优化、记忆写入，还是工具路由的调整。并且，它还支持回放评估、回归测试、灰度发布和版本化追踪，确保每一次演进都稳健可控。
Online RL微服务运行时：AReaL 2.0将传统的强化学习基础设施升级为能够承接Agent服务流量的在线系统。Gateway作为统一入口，Router负责会话与Data Proxy的绑定以维持多轮交互的上下文连续性，Data Proxy管理会话状态和轨迹，Agent-Compute Worker执行推理、采样和训练计算，而Controller则负责整体的调度、扩缩容和健康检查。

如果您对AI开源项目感兴趣，欢迎微信关注并回复“开源”，加入我们的AI开源项目交流群。

AReaL 2.0的使用指引

探索项目主页：请访问GitHub仓库 https://github.com/areal-project/AReaL，获取源码和详细的文档。
部署基础设施：按照文档指引，部署AReaL 2.0的Gateway、Router、Data Proxy和Controller等核心微服务组件。
调整推理入口：将您现有Agent的LLM API调用后端（base_url/api_key）指向AReaL 2.0管理的Gateway，实现无缝切换。
配置轨迹协议：启用ATDP协议，确保Agent的观察、动作、工具调用及结果等信息能够以步骤为单位被精确记录。
部署数据代理：配置Data Proxy，完成数据的拦截、脱敏、权限控制和轨迹的持久化存储。
启动训练闭环：将采集到的真实交互轨迹导入训练服务，启动在线强化学习流程，让Agent从每一次互动中持续学习和进步。

AReaL 2.0的突出优势

极低的接入门槛：您只需轻松切换LLM推理后端，无需对Agent的规划、工具调用、沙箱或记忆模块进行任何重写，即可享受AReaL 2.0带来的强大能力。
真实场景驱动的学习：AReaL 2.0直接利用线上真实交互数据进行训练，有效弥合了离线仿真环境与真实世界行为之间的鸿沟，让Agent的学习更贴近实际。
企业级安全与合规：数据脱敏、权限控制和合规边界在训练之前即已建立，完美适配多租户、多业务线的复杂企业场景。
可解释性与可回滚性：每一次Agent的演进都经过严谨的回放评估、回归测试和版本化追踪，一旦出现问题，可以快速回滚到稳定版本。
丰富的开源生态：AReaL 2.0已成为PyTorch基金会的一员，社区提供了昇腾NPU的适配支持以及LoRA等低算力优化方案，为开发者提供了更广阔的平台。

AReaL 2.0的官方入口

项目官网：https://areal-ai.io/en/intro.html
GitHub仓库：https://github.com/areal-project/AReaL
arXiv技术论文：https://arxiv.org/pdf/2607.01120

AReaL 2.0与同类竞品深度对比

对比维度	AReaL 2.0	OpenRLHF
产品定位	面向服务侧持续演进的Agent在线RL基础设施	面向模型后训练的通用LLM RLHF训练框架
数据来源	真实部署环境中的在线会话轨迹	离线构建的偏好数据集和仿真环境
接入方式	微服务化，通过切换推理后端即可低侵入接入	需重构训练流程，适配特定模型结构
数据治理	内置企业级Data Proxy，训练前完成脱敏与权限控制	需额外搭建数据清洗和治理流程
架构设计	Gateway-Router-Worker微服务解耦，支持会话保持和横向扩展	集中式训练架构，侧重分布式计算效率
适用场景	已上线的Agent从真实交互中持续自我改进	新模型的RLHF后训练与对齐优化

AReaL 2.0的广泛应用场景

赋能软件工程智能体：训练Coding Agent从真实的issue修复、代码审查和PR生成过程中不断优化其策略，实现类似Claude Code类Agent的端到端RL训练。
优化企业客服助手：通过分析用户对话、满意度反馈和人工修正数据，Agent能够持续优化回复策略、工具调用路径以及知识检索的精准度。
加速科研实验助理：记录文献检索、实验设计、数据分析的全过程轨迹，Agent可以不断提升其多工具编排和跨平台操作的能力。
提升复杂任务调度Agent：在涉及多轮交互、多工具调用的复杂工作流中，Agent能够持续改进其工具选择、路由策略以及错误恢复机制。
服务多租户SaaS智能体：为不同业务线、不同权限边界的Agent提供隔离的轨迹采集和定制化的在线学习服务，满足多样化的SaaS应用需求。

阅读原文

# AI工具 # AI项目和框架 # AI产品功能 # AReaL20 # 人工智能 # 提炼 # 长尾关键词

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...