ShowUI：新加坡国立与微软合作推出视觉语言操作模型实现高效GUI自动化

ShowUI是新加坡国立大学Show Lab与微软携手推出的视觉-语言-行动模型，旨在显著提升图形用户界面（GUI）助手的工作效率。该模型通过UI引导的视觉令牌选择来降低计算成本，以交错的视觉-语言-行动流来整合GUI任务的多样化需求，同时管理视觉-行动历史以增强训练效率。ShowUI使用了小规模但高质量的指令跟随数据集，通过256K数据实现了75.1%的零样本截图定位准确率，并且训练速度提升了1.4倍，展现出在GUI视觉代理领域的巨大潜力。

ShowUI是什么

ShowUI是一个先进的视觉-语言-行动模型，由新加坡国立大学Show Lab与微软共同开发，目的是提高图形用户界面助手的工作效率。该模型通过UI引导的视觉令牌选择来减少计算负担，并采用交错的视觉-语言-行动流来统一处理各种GUI任务，同时有效管理视觉-行动历史，提升训练的效率。

ShowUI的主要功能

UI引导的视觉令牌选择：将屏幕截图转化为UI连接图，智能识别冗余关系，并在自注意力模块中作为选择令牌的依据，从而降低计算成本。
交错视觉-语言-行动流：灵活整合GUI任务的多样性，有效管理视觉-行动历史，提升训练效率。
高质量的GUI指令跟随数据集：通过精心设计的数据和重采样策略，解决数据类型不均衡问题，增强模型的准确性与效率。
零样本截图定位：具备在无需额外训练的情况下直接理解并操作屏幕截图的能力。
GUI任务自动化：能够自动执行如点击、输入等各种GUI任务，从而提高人机交互的效率。

ShowUI的技术原理

UI引导的视觉令牌选择：
- 将屏幕截图细分为规则的补丁（patches），每个补丁作为一个节点。
- 识别相同RGB值的相邻补丁，构建UI连接图，将视觉冗余区域合并处理。
- 在自注意力模块中，基于UI连接图选择性处理视觉令牌，以减少计算量。
交错视觉-语言-行动流：
- 将GUI动作结构化为JSON格式，从而统一不同设备上的操作。
- 通过交替处理视觉、语言和行动数据，管理复杂的交互历史。
- 在训练中采用多轮对话方式，提高数据利用效率。
数据策划与重采样策略：
- 精心挑选和策划高质量的训练数据，而非简单聚合所有可用数据源。
- 运用重采样策略，解决不同设备和任务类型之间的数据不平衡问题。
高效处理高分辨率UI截图：针对高分辨率UI截图，优化模型以有效处理长令牌序列，降低计算负担。
模型架构：
- 基于Qwen2-VL-2B模型，整合视觉编码器和语言模型，处理视觉与文本数据。
- 结合特定的数据食谱和训练策略，提升模型在GUI任务中的表现。