ScreenAI

ScreenAI：智能屏幕信息处理的前沿工具

ScreenAI是什么

ScreenAI是谷歌研究团队开发的一款先进的可读屏AI视觉语言模型，旨在深度理解和解析用户界面（UI）及信息图表。该模型基于PaLI架构，结合了视觉与语言处理的能力，并借鉴了Pix2Struct的灵活拼贴策略，从而能够理解和生成与屏幕UI元素相关的文本内容，包括问题回答、UI导航指令及内容摘要。
ScreenAI

arXiv研究论文：https://arxiv.org/abs/2402.04615
GitHub PyTorch实现：https://github.com/kyegomez/ScreenAI

ScreenAI的主要功能

ScreenAI

屏幕信息解析：ScreenAI具备识别和理解UI元素及信息图表内容的能力，包括元素类型、位置及其相互关系。
问题回答（QA）：该模型能够理解所获取的视觉信息，并对与UI和信息图表内容相关的问题进行回答。
UI导航：ScreenAI能够解析导航指令（例如“返回”），并识别适当的UI元素进行交互，以有效理解用户意图并准确导航界面。
内容概括：模型能够简明扼要地总结屏幕内容，提炼屏幕信息的核心要点。
适应多种屏幕格式：ScreenAI能够处理不同分辨率和宽高比的屏幕截图，适应移动设备与台式机等多种设备的屏幕格式。

ScreenAI的技术原理

ScreenAI

多模态编码器：受PaLI架构启发，ScreenAI采用多模态编码器块，包含视觉编码器和语言编码器。视觉编码器基于Vision Transformer (ViT) 架构，将输入的屏幕截图转化为一系列图像嵌入，而语言编码器则处理与这些屏幕截图相关的文本信息，如UI元素的标签和描述。
图像与文本融合：在多模态编码器中，图像嵌入与文本嵌入相结合，使模型能够同时理解视觉内容与相关语言信息，从而处理复杂的屏幕交互任务。
自回归解码器：编码器的输出传递给一个自回归解码器T5，负责生成文本输出，能够基于输入的图像和文本嵌入产生自然语言响应。
自动数据生成：为训练ScreenAI，研究人员利用自动数据生成技术，采用PaLM 2-S语言模型生成合成训练数据，包括屏幕模式及相应的问题-答案对。这一方法提升了数据的多样性和复杂性，减少了对手动标注的需求。
图像分割策略：ScreenAI利用Pix2Struct技术处理不同分辨率和宽高比的屏幕截图，允许模型根据输入图像的形状和预定义的最大块数生成任意网格形状的图像块，从而适应各种屏幕格式。
模型配置与训练：ScreenAI提供670M、2B和5B参数的多个模型版本。这些模型在预训练阶段采用不同的起点，例如从PaLI-3的多模态预训练检查点开始。预训练任务与微调任务的结合，使模型能够在多种任务上进行训练和优化。