Mobile-Agent-v3.5

Mobile-Agent-v3.5 – 阿里通义开源的多平台GUI Agent框架

Mobile-Agent-v3.5：引领开源GUI智能体迈向工程可用新纪元

阿里巴巴通义实验室继往开来，隆重推出其最新力作——Mobile-Agent-v3.5。这款新一代多平台GUI Agent框架的问世，无疑为开源GUI智能体领域注入了新的活力，标志着其发展已从昔日的“演示级”雏形，跃升至如今的“工程可用级”成熟形态。该框架的卓越之处在于其原生支持桌面、手机以及浏览器三大核心平台，能够无缝穿梭于Android、Ubuntu、macOS和Windows等多种操作系统之间，实现真正的跨平台自动化操作。

Mobile-Agent-v3.5 的核心竞争力，得益于其配套的GUI-Owl-1.5模型家族。该家族模型实力雄厚，参数规模覆盖2B至235B的广泛区间。更值得称道的是，它将模型能力精巧地解耦为Instruct（侧重轻量化与低延迟）和Thinking（侧重强大的规划与反思能力）两种截然不同的变体，从而能够灵活适应从端侧到云端的全链路部署需求。在各项主流GUI Benchmark测试中，Mobile-Agent-v3.5 表现抢眼，在OSWorld-Verified、AndroidWorld、VisualWebArena等20多项评测中均斩获了开源领域的SOTA（State-of-the-Art）佳绩。其制胜法宝在于三大核心技术的巧妙融合：混合数据飞轮、统一思维链合成以及MRPO多平台强化学习算法。正是这些创新技术的加持，Mobile-Agent-v3.5 成功攻克了跨平台动作空间差异的难题，并有效解决了长程任务训练不稳定的顽疾，为整个社区提供了一套从底层基座模型到Agent框架的完整开源技术参考，极大地推动了GUI智能体技术的进步与应用。

Mobile-Agent-v3.5 的主要亮点：

全方位跨平台GUI自动化：Mobile-Agent-v3.5 实现了对桌面、手机和浏览器三大平台的原生支持，能够对Android、Ubuntu、macOS、Windows等多个终端实现统一控制和自动化执行，真正打破了平台壁垒。
丰富多样的模型参数选择：与其配套的GUI-Owl-1.5模型家族，提供了2B、4B、8B、32B、235B等多种参数规模的模型。这使得用户可以根据自身需求，灵活选择最适合的部署方案，覆盖了从轻量级端侧应用到高性能云端部署的全部场景。
双模式推理架构，兼顾效率与深度：框架创新性地解耦出Instruct和Thinking两种模型变体。Instruct变体专为追求极致低延迟的实时交互场景而优化，而Thinking变体则在复杂的规划与深度反思能力上表现卓越，两者协同工作，能够满足不同应用场景下的多样化需求。
强大的长程任务规划能力：通过先进的统一思维链合成技术，Mobile-Agent-v3.5 能够系统性地整合工具调用、记忆管理、知识查询以及多Agent协作等高级功能，赋予模型执行复杂长程任务的能力，实现精密的任务规划与执行。
卓越的基准测试表现：Mobile-Agent-v3.5 在OSWorld-Verified（得分56.5）、AndroidWorld（得分71.6）、VisualWebArena（得分46.6）等20余项业界主流GUI Benchmark测试中，均取得了开源领域的领先地位。
精细的多模态感知与理解：该框架具备强大的视觉感知和语义理解能力，能够精准识别界面元素、深刻理解用户操作意图，从而实现诸如点击、输入、滑动等精细化的GUI交互操作。
经强化学习优化的多平台性能：采用先进的MRPO多平台强化学习算法，有效解决了跨平台动作空间差异所导致的梯度冲突问题，显著提升了长程任务训练的稳定性和可靠性。

Mobile-Agent-v3.5 的技术基石：

混合数据飞轮（Hybird Data Flywheel）：该技术巧妙地结合了仿真环境与云端沙箱的优势，能够大规模地生成高质量的“接地”数据（grounding data）和长程任务轨迹。这有效解决了真实环境中数据采集成本高昂且规模受限的瓶颈。
统一思维链合成：通过系统化的技术注入，模型能够集成工具/MCP调用、记忆管理、知识查询以及多Agent协作等高级能力，赋予其出色的长程规划、反思和自我纠错能力。
MRPO多平台强化学习算法：该算法专注于解决跨平台动作空间差异带来的梯度冲突，以及长程任务训练不稳定和信用分配困难等挑战，实现了多平台下的统一训练与优化。
GUI-Owl-1.5基座模型：作为一款原生多模态理解模型，GUI-Owl-1.5 提供了从2B到235B的完整参数谱系，其核心优势在于能够实现视觉感知与语义推理的端到端GUI交互。
双变体架构设计：Instruct变体专注于低延迟场景优化，而Thinking变体则着重于提升规划与反思能力。这种解耦设计使得模型能够灵活适应不同的应用需求。
端到端训练框架：从数据生成、模型训练到强化学习优化，整个流程形成了一个完整的闭环，支持跨平台、跨任务的统一学习与迁移，极大地提高了训练效率和模型泛化能力。
开源生态的无缝兼容：Mobile-Agent-v3.5 基于Qwen3系列架构进行了优化，能够与主流AI开发生态完美兼容，并支持在ModelScope和HuggingFace模型仓库上一键部署，降低了使用门槛。

Mobile-Agent-v3.5 的项目入口：

GitHub仓库：https://github.com/X-PLUG/MobileAgent

Mobile-Agent-v3.5 的广阔应用前景：

智能设备自动化助手：能够自动完成手机上的各类App操作，如信息查询、应用使用、设置调整等，轻松实现自动订餐、查询天气、管理日程等便捷功能。
高效的跨平台办公辅助：在Windows、macOS、Ubuntu等桌面环境下，可以自动执行文档处理、邮件发送、会议安排、数据录入等重复性办公任务，显著提升工作效率。
智能网页自动化测试：支持浏览器端的自动化操作，特别适用于Web应用的自动化测试、表单填写、数据抓取以及电商比价等多样化场景。
轻量级端侧AI助手部署：借助2B/4B等轻量级模型，可以在手机、IoT设备等终端设备上实现低延迟的本地GUI自动化助手，提供即时响应的服务。
企业流程自动化利器：与RPA（机器人流程自动化）技术相结合，能够自动化处理ERP、CRM等企业级系统的界面操作，从而大幅提升业务流程的运行效率。
赋能无障碍辅助工具：能够协助视障或操作不便的用户自动完成复杂的界面交互，显著降低了数字设备的使用门槛，让科技惠及更多人群。

阅读原文