ShowUI:新加坡国立与微软合作推出视觉语言操作模型实现高效GUI自动化

AI工具1个月前发布 AI工具集
12 0 0

ShowUI是新加坡国立大学Show Lab与微软携手推出的视觉-语言-行动模型,旨在显著提升图形用户界面(GUI)助手的工作效率。该模型通过UI引导的视觉令牌选择来降低计算成本,以交错的视觉-语言-行动流来整合GUI任务的多样化需求,同时管理视觉-行动历史以增强训练效率。ShowUI使用了小规模但高质量的指令跟随数据集,通过256K数据实现了75.1%的零样本截图定位准确率,并且训练速度提升了1.4倍,展现出在GUI视觉代理领域的巨大潜力。

ShowUI是什么

ShowUI是一个先进的视觉-语言-行动模型,由新加坡国立大学Show Lab与微软共同开发,目的是提高图形用户界面助手的工作效率。该模型通过UI引导的视觉令牌选择来减少计算负担,并采用交错的视觉-语言-行动流来统一处理各种GUI任务,同时有效管理视觉-行动历史,提升训练的效率。

ShowUI:新加坡国立与微软合作推出视觉语言操作模型实现高效GUI自动化

ShowUI的主要功能

  • UI引导的视觉令牌选择:将屏幕截图转化为UI连接图,智能识别冗余关系,并在自注意力模块中作为选择令牌的依据,从而降低计算成本。
  • 交错视觉-语言-行动流:灵活整合GUI任务的多样性,有效管理视觉-行动历史,提升训练效率。
  • 高质量的GUI指令跟随数据集:通过精心设计的数据和重采样策略,解决数据类型不均衡问题,增强模型的准确性与效率。
  • 零样本截图定位:具备在无需额外训练的情况下直接理解并操作屏幕截图的能力。
  • GUI任务自动化:能够自动执行如点击、输入等各种GUI任务,从而提高人机交互的效率。

ShowUI的技术原理

  • UI引导的视觉令牌选择
    • 将屏幕截图细分为规则的补丁(patches),每个补丁作为一个节点。
    • 识别相同RGB值的相邻补丁,构建UI连接图,将视觉冗余区域合并处理。
    • 在自注意力模块中,基于UI连接图选择性处理视觉令牌,以减少计算量。
  • 交错视觉-语言-行动流
    • 将GUI动作结构化为JSON格式,从而统一不同设备上的操作。
    • 通过交替处理视觉、语言和行动数据,管理复杂的交互历史。
    • 在训练中采用多轮对话方式,提高数据利用效率。
  • 数据策划与重采样策略
    • 精心挑选和策划高质量的训练数据,而非简单聚合所有可用数据源。
    • 运用重采样策略,解决不同设备和任务类型之间的数据不平衡问题。
  • 高效处理高分辨率UI截图:针对高分辨率UI截图,优化模型以有效处理长令牌序列,降低计算负担。
  • 模型架构
    • 基于Qwen2-VL-2B模型,整合视觉编码器和语言模型,处理视觉与文本数据。
    • 结合特定的数据食谱和训练策略,提升模型在GUI任务中的表现。

ShowUI的项目地址

ShowUI的应用场景

  • 网页自动化:在网页上自动执行点击、输入、滚动等操作,可用于自动化测试、数据抓取或模拟用户行为。
  • 移动应用测试:在移动应用中自动化执行多种用户交互,如滑动、点击和填写表单,进行应用功能测试。
  • 桌面软件自动化:自动化处理桌面软件中的重复性任务,如文件管理、数据输入和设置调整等。
  • 虚拟助手:作为虚拟助手的一部分,根据用户的自然语言指令执行特定的GUI操作。
  • 游戏自动化:在支持自动化脚本的游戏中自动执行角色移动、物品拾取和战斗等操作。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...