ShowUI是新加坡国立大学Show Lab与微软携手推出的视觉-语言-行动模型,旨在显著提升图形用户界面(GUI)助手的工作效率。该模型通过UI引导的视觉令牌选择来降低计算成本,以交错的视觉-语言-行动流来整合GUI任务的多样化需求,同时管理视觉-行动历史以增强训练效率。ShowUI使用了小规模但高质量的指令跟随数据集,通过256K数据实现了75.1%的零样本截图定位准确率,并且训练速度提升了1.4倍,展现出在GUI视觉代理领域的巨大潜力。
ShowUI是什么
ShowUI是一个先进的视觉-语言-行动模型,由新加坡国立大学Show Lab与微软共同开发,目的是提高图形用户界面助手的工作效率。该模型通过UI引导的视觉令牌选择来减少计算负担,并采用交错的视觉-语言-行动流来统一处理各种GUI任务,同时有效管理视觉-行动历史,提升训练的效率。
ShowUI的主要功能
- UI引导的视觉令牌选择:将屏幕截图转化为UI连接图,智能识别冗余关系,并在自注意力模块中作为选择令牌的依据,从而降低计算成本。
- 交错视觉-语言-行动流:灵活整合GUI任务的多样性,有效管理视觉-行动历史,提升训练效率。
- 高质量的GUI指令跟随数据集:通过精心设计的数据和重采样策略,解决数据类型不均衡问题,增强模型的准确性与效率。
- 零样本截图定位:具备在无需额外训练的情况下直接理解并操作屏幕截图的能力。
- GUI任务自动化:能够自动执行如点击、输入等各种GUI任务,从而提高人机交互的效率。
ShowUI的技术原理
- UI引导的视觉令牌选择:
- 将屏幕截图细分为规则的补丁(patches),每个补丁作为一个节点。
- 识别相同RGB值的相邻补丁,构建UI连接图,将视觉冗余区域合并处理。
- 在自注意力模块中,基于UI连接图选择性处理视觉令牌,以减少计算量。
- 交错视觉-语言-行动流:
- 将GUI动作结构化为JSON格式,从而统一不同设备上的操作。
- 通过交替处理视觉、语言和行动数据,管理复杂的交互历史。
- 在训练中采用多轮对话方式,提高数据利用效率。
- 数据策划与重采样策略:
- 精心挑选和策划高质量的训练数据,而非简单聚合所有可用数据源。
- 运用重采样策略,解决不同设备和任务类型之间的数据不平衡问题。
- 高效处理高分辨率UI截图:针对高分辨率UI截图,优化模型以有效处理长令牌序列,降低计算负担。
- 模型架构:
- 基于Qwen2-VL-2B模型,整合视觉编码器和语言模型,处理视觉与文本数据。
- 结合特定的数据食谱和训练策略,提升模型在GUI任务中的表现。
ShowUI的项目地址
- GitHub仓库:https://github.com/showlab/ShowUI
- HuggingFace模型库:https://huggingface.co/datasets/showlab/ShowUI-desktop-8K
- arXiv技术论文:https://arxiv.org/pdf/2411.17465
- 在线体验Demo:https://huggingface.co/spaces/showlab/ShowUI
ShowUI的应用场景
- 网页自动化:在网页上自动执行点击、输入、滚动等操作,可用于自动化测试、数据抓取或模拟用户行为。
- 移动应用测试:在移动应用中自动化执行多种用户交互,如滑动、点击和填写表单,进行应用功能测试。
- 桌面软件自动化:自动化处理桌面软件中的重复性任务,如文件管理、数据输入和设置调整等。
- 虚拟助手:作为虚拟助手的一部分,根据用户的自然语言指令执行特定的GUI操作。
- 游戏自动化:在支持自动化脚本的游戏中自动执行角色移动、物品拾取和战斗等操作。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...