AGUVIS

AI工具2年前 (2024)发布 AI工具集

AGUVIS – 香港大合 Salesforce 推出统一纯视觉的GUI自动化框架

AGUVIS是什么

AGUVIS是由香港大学与Salesforce联手开发的一个统一的纯视觉框架，专门为自主图形用户界面（GUI）智能体设计。该框架能够在各种平台（包括网页、桌面和移动设备）上进行操作。AGUVIS通过将图像观察与自然语言指令相结合，实现了视觉元素的有效关联，并采用统一的动作空间来增强跨平台的适应能力。它结合了显式的规划和推理能力，提升了智能体在复杂数字环境中的自主导航与交互性能。通过大规模的数据集和两阶段的训练流程，AGUVIS在离线与在线场景中展现了超越目前技术的卓越表现，成为首个能完成任务而不依赖外部闭源模型的纯视觉GUI代理。

AGUVIS

AGUVIS的主要功能

跨平台自主GUI交互：在多种平台（如网站、桌面应用和移动设备）上自主执行图形用户界面任务。
图像观察与自然语言指令的融合：将自然语言指令与视觉界面元素进行映射，促进基于图像的交互。
显式规划与推理能力：集成规划与推理功能，使智能体能够分析环境并生成有效的操作步骤。
大规模数据集构建：创建一个包含多模态推理和基础的GUI代理轨迹的大规模数据集。

AGUVIS的技术原理

纯视觉框架：采用纯视觉的方法，将界面观察统一为图像，并将指令基于图像坐标，提高了跨环境的适应能力。
统一动作空间：通过标准化的动作空间和插件系统，实现不同平台间的一致学习与交互。
视觉-语言模型（VLM）：VLM作为基础组件，如Qwen2-VL，处理任意分辨率的高分辨率图像，并将其动态转换为视觉令牌。
两阶段训练策略：
- 第一阶段：基础训练：专注于使模型理解并与单个GUI截图中的对象进行交互。
- 第二阶段：规划与推理训练：在基础训练的基础上，加入复杂的决策制定与推理过程，通过多样化的代理轨迹数据进行模型训练。
内省式独白（Inner Monologue）：在训练过程中生成详细的内省式独白，包含观察描述、思考过程以及低级动作指令，模拟智能体的思考方式，提升其规划能力。
插件系统：为无法直接映射到现有动作空间的操作提供灵活性，使模型能够适应新的环境和任务。