AGUVIS – 香港大合 Salesforce 推出统一纯视觉的GUI自动化框架
AGUVIS是什么
AGUVIS是由香港大学与Salesforce联手开发的一个统一的纯视觉框架,专门为自主图形用户界面(GUI)智能体设计。该框架能够在各种平台(包括网页、桌面和移动设备)上进行操作。AGUVIS通过将图像观察与自然语言指令相结合,实现了视觉元素的有效关联,并采用统一的动作空间来增强跨平台的适应能力。它结合了显式的规划和推理能力,提升了智能体在复杂数字环境中的自主导航与交互性能。通过大规模的数据集和两阶段的训练流程,AGUVIS在离线与在线场景中展现了超越目前技术的卓越表现,成为首个能完成任务而不依赖外部闭源模型的纯视觉GUI代理。
AGUVIS的主要功能
- 跨平台自主GUI交互:在多种平台(如网站、桌面应用和移动设备)上自主执行图形用户界面任务。
- 图像观察与自然语言指令的融合:将自然语言指令与视觉界面元素进行映射,促进基于图像的交互。
- 显式规划与推理能力:集成规划与推理功能,使智能体能够分析环境并生成有效的操作步骤。
- 大规模数据集构建:创建一个包含多模态推理和基础的GUI代理轨迹的大规模数据集。
AGUVIS的技术原理
- 纯视觉框架:采用纯视觉的方法,将界面观察统一为图像,并将指令基于图像坐标,提高了跨环境的适应能力。
- 统一动作空间:通过标准化的动作空间和插件系统,实现不同平台间的一致学习与交互。
- 视觉-语言模型(VLM):VLM作为基础组件,如Qwen2-VL,处理任意分辨率的高分辨率图像,并将其动态转换为视觉令牌。
- 两阶段训练策略:
- 第一阶段:基础训练:专注于使模型理解并与单个GUI截图中的对象进行交互。
- 第二阶段:规划与推理训练:在基础训练的基础上,加入复杂的决策制定与推理过程,通过多样化的代理轨迹数据进行模型训练。
- 内省式独白(Inner Monologue):在训练过程中生成详细的内省式独白,包含观察描述、思考过程以及低级动作指令,模拟智能体的思考方式,提升其规划能力。
- 插件系统:为无法直接映射到现有动作空间的操作提供灵活性,使模型能够适应新的环境和任务。
AGUVIS的项目地址
- 项目官网:aguvis-project
- GitHub仓库:https://github.com/xlang-ai/aguvis
- arXiv技术论文:https://arxiv.org/pdf/2412.04454
AGUVIS的应用场景
- 自动化测试:在软件开发中自动化测试多种图形用户界面,包括网站、桌面应用程序和移动应用,以确保软件的稳定性和可靠性。
- 虚拟助手:作为虚拟助手,帮助用户自动化日常计算机任务,如日程管理、电子邮件处理和数据输入。
- 业务流程自动化:在企业中自动执行特定的业务流程,如财务报告生成和客户数据管理,提高工作效率。
- 教育与培训:创建交互式教育软件,模拟真实世界的GUI操作,供教学和培训之用。
- 客户服务自动化:在客户服务领域自动处理客户请求,通过GUI界面提供快速的响应和解决方案。
常见问题
如果您有关于AGUVIS的使用或技术的疑问,可以访问我们的官网或GitHub仓库,获取最新的文档和支持信息。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...