AReaL 2.0

AI工具9分钟前更新 AI工具集
0 0 0

AReaL 2.0 – 蚂蚁等开源的Agent在线强化学习基础架构

AReaL 2.0:赋能已部署Agent的持续自我演进之路

人工智能飞速发展的今天,Agent(智能体)的部署已不再是终点,而是持续优化的起点。AReaL 2.0,这一由蚂蚁集团携手香港科技大学和清华大学共同打造的Agent在线强化学习基础架构,正以前所未有的方式,让已投入使用的Agent能够汲取真实交互的养分,实现真正的自我迭代与成长。

AReaL 2.0的独特之处

AReaL 2.0并非一个简单的训练框架,而是一个贯穿Agent生命周期的完整基础设施。它巧妙地将生产环境中的海量会话数据转化为可供Agent学习的宝贵经验,而这一切,无需对现有的Agent代码进行大刀阔斧的修改,也无需已有的业务系统。其核心在于三大支柱的协同作用:精心设计的轨迹数据协议、企业级的智能数据代理,以及智能的演进控制平面。值得一提的是,AReaL 2.0已荣幸加入PyTorch基金会,并积极拥抱昇腾NPU适配,展现了其开放与前瞻的生态战略。

AReaL 2.0的核心能力解析

  • 在线RL闭环构建:AReaL 2.0能够自动化地捕捉Agent在真实世界中的每一次互动,将其转化为可用于训练的经验数据,从而形成一个从“执行”到“学习”的无缝闭环,实现Agent能力的持续提升。
  • 精细化轨迹数据采集:通过独特的ATDP(Agent Trajectory Data Protocol)协议,AReaL 2.0能够以步骤为单位,完整记录Agent的决策过程,包括它所观察到的信息、采取的动作、动作的结果以及相关的元数据,为Agent的每一次“思考”都留下清晰的印记。
  • 企业级数据治理保障:其强大的Data Proxy(数据代理)扮演着关键角色,它负责在数据进入训练流程前,完成必要的拦截、脱敏、权限控制和轨迹持久化工作,确保所有训练数据都符合严格的企业级合规要求。
  • 智能化的演进控制平面:Agent的“进化”不再是盲目的。演进控制平面依据轨迹统计数据、用户修正率、失败案例分析等多维度信号,精准判断Agent的更新方向,是进行模型优化、记忆写入,还是调整工具使用策略。
  • 微服务化的灵活架构:AReaL 2.0采用了高度解耦的微服务架构,将训练、推理、权重更新等核心功能拆分为Gateway、Router、Data Proxy等的组件,便于部署、扩展和维护。

AReaL 2.0的底层技术原理

  • Agent Trajectory Data Protocol (ATDP):这一面向智能体的轨迹协议,将复杂任务的执行过程分解为可追溯、可回放的学习单元。它不仅记录Agent的观察、内部状态、动作选择、结果和奖励反馈,还包含了模型版本、工具版本、租户信息、成本等关键元数据,能够清晰地回答“哪一次检索、哪个工具调用对任务成败产生了影响”等核心问题。
  • Agentic Data Proxy:作为Agent与外部系统(模型、工具、检索系统、人类反馈等)之间的关键数据层,Agentic Data Proxy负责拦截、采集、脱敏、权限管理、轨迹持久化、奖励收集和回放管理。在数据进入训练队列之前,就完成了精细化的治理,区分了可见字段、训练可用数据以及仅供调试审计的数据。
  • Agent Evolution Control Plane:这个智能体演进的“大脑”,将“何时更新、更新什么”这样的决策系统化、可治理化。它综合考量轨迹统计、用户修正率、工具失败簇、评估器得分、成本信号、安全约束以及分布漂移等多种因素,来决定演进的侧重点,是模型RL、偏好优化、记忆写入,还是工具路由的调整。并且,它还支持回放评估、回归测试、灰度发布和版本化追踪,确保每一次演进都稳健可控。
  • Online RL微服务运行时:AReaL 2.0将传统的强化学习基础设施升级为能够承接Agent服务流量的在线系统。Gateway作为统一入口,Router负责会话与Data Proxy的绑定以维持多轮交互的上下文连续性,Data Proxy管理会话状态和轨迹,Agent-Compute Worker执行推理、采样和训练计算,而Controller则负责整体的调度、扩缩容和健康检查。

如果您对AI开源项目感兴趣,欢迎微信关注并回复“开源”,加入我们的AI开源项目交流群。

AReaL 2.0的使用指引

  • 探索项目主页:请访问GitHub仓库 https://github.com/areal-project/AReaL,获取源码和详细的文档。
  • 部署基础设施:按照文档指引,部署AReaL 2.0的Gateway、Router、Data Proxy和Controller等核心微服务组件。
  • 调整推理入口:将您现有Agent的LLM API调用后端(base_url/api_key)指向AReaL 2.0管理的Gateway,实现无缝切换。
  • 配置轨迹协议:启用ATDP协议,确保Agent的观察、动作、工具调用及结果等信息能够以步骤为单位被精确记录。
  • 部署数据代理:配置Data Proxy,完成数据的拦截、脱敏、权限控制和轨迹的持久化存储。
  • 启动训练闭环:将采集到的真实交互轨迹导入训练服务,启动在线强化学习流程,让Agent从每一次互动中持续学习和进步。

AReaL 2.0的突出优势

  • 极低的接入门槛:您只需轻松切换LLM推理后端,无需对Agent的规划、工具调用、沙箱或记忆模块进行任何重写,即可享受AReaL 2.0带来的强大能力。
  • 真实场景驱动的学习:AReaL 2.0直接利用线上真实交互数据进行训练,有效弥合了离线仿真环境与真实世界行为之间的鸿沟,让Agent的学习更贴近实际。
  • 企业级安全与合规:数据脱敏、权限控制和合规边界在训练之前即已建立,完美适配多租户、多业务线的复杂企业场景。
  • 可解释性与可回滚性:每一次Agent的演进都经过严谨的回放评估、回归测试和版本化追踪,一旦出现问题,可以快速回滚到稳定版本。
  • 丰富的开源生态:AReaL 2.0已成为PyTorch基金会的一员,社区提供了昇腾NPU的适配支持以及LoRA等低算力优化方案,为开发者提供了更广阔的平台。

AReaL 2.0的官方入口

  • 项目官网:https://areal-ai.io/en/intro.html
  • GitHub仓库:https://github.com/areal-project/AReaL
  • arXiv技术论文:https://arxiv.org/pdf/2607.01120

AReaL 2.0与同类竞品深度对比

对比维度AReaL 2.0OpenRLHF
产品定位面向服务侧持续演进的Agent在线RL基础设施面向模型后训练的通用LLM RLHF训练框架
数据来源真实部署环境中的在线会话轨迹离线构建的偏好数据集和仿真环境
接入方式微服务化,通过切换推理后端即可低侵入接入需重构训练流程,适配特定模型结构
数据治理内置企业级Data Proxy,训练前完成脱敏与权限控制需额外搭建数据清洗和治理流程
架构设计Gateway-Router-Worker微服务解耦,支持会话保持和横向扩展集中式训练架构,侧重分布式计算效率
适用场景已上线的Agent从真实交互中持续自我改进新模型的RLHF后训练与对齐优化

AReaL 2.0的广泛应用场景

  • 赋能软件工程智能体:训练Coding Agent从真实的issue修复、代码审查和PR生成过程中不断优化其策略,实现类似Claude Code类Agent的端到端RL训练。
  • 优化企业客服助手:通过分析用户对话、满意度反馈和人工修正数据,Agent能够持续优化回复策略、工具调用路径以及知识检索的精准度。
  • 加速科研实验助理:记录文献检索、实验设计、数据分析的全过程轨迹,Agent可以不断提升其多工具编排和跨平台操作的能力。
  • 提升复杂任务调度Agent:在涉及多轮交互、多工具调用的复杂工作流中,Agent能够持续改进其工具选择、路由策略以及错误恢复机制。
  • 服务多租户SaaS智能体:为不同业务线、不同权限边界的Agent提供隔离的轨迹采集和定制化的在线学习服务,满足多样化的SaaS应用需求。
阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...