谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA
关键字：模型,任务,研究人员,编码器,图像
文章来源：新智元
内容字数：5877字

内容摘要：

新智元报道编辑：桃子
【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型，能够完成各种屏幕QA问答、总结摘要等任务。每个人想要的大模型，是真·智能的那种……
这不，谷歌团队就做出来了一个强大的「读屏」AI。
研究人员将其称为ScreenAI，是一种理解用户界面和信息图表的全新视觉语言模型。
论文地址：https://arxiv.org/pdf/2402.04615.pdf
ScreenAI的核心是一种新的屏幕截图文本表示方法，可以识别UI元素的类型和位置。
值得一提的是，研究人员使用谷歌语言模型PaLM 2-S生成了合成训练数据，以训练模型回答关屏幕信息、屏幕导航和屏幕内容摘要的问题。
举个栗子，比如打开一音乐APP页面，可以询问「有几首歌时长少于30秒」？
ScreenAI便给出了简单的答案：1。
再比如命令ScreenAI打开菜单，就可以选中。
架构灵感来源——PaLI图1中展示了ScreenAI模型架构。研究人员受到了PaLI系列模型架构（由一个多模态编码器块组成）的启发。
该编码器块包含一个类似ViT的视觉编码器和一