AIGC动态欢迎阅读
原标题:谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA
关键字:模型,任务,研究人员,编码器,图像
文章来源:新智元
内容字数:5877字
内容摘要:
新智元报道编辑:桃子
【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘要等任务。每个人想要的大模型,是真·智能的那种……
这不,谷歌团队就做出来了一个强大的「读屏」AI。
研究人员将其称为ScreenAI,是一种理解用户界面和信息图表的全新视觉语言模型。
论文地址:https://arxiv.org/pdf/2402.04615.pdf
ScreenAI的核心是一种新的屏幕截图文本表示方法,可以识别UI元素的类型和位置。
值得一提的是,研究人员使用谷歌语言模型PaLM 2-S生成了合成训练数据,以训练模型回答关屏幕信息、屏幕导航和屏幕内容摘要的问题。
举个栗子,比如打开一音乐APP页面,可以询问「有几首歌时长少于30秒」?
ScreenAI便给出了简单的答案:1。
再比如命令ScreenAI打开菜单,就可以选中。
架构灵感来源——PaLI图1中展示了ScreenAI模型架构。研究人员受到了PaLI系列模型架构(由一个多模态编码器块组成)的启发。
该编码器块包含一个类似ViT的视觉编码器和一
原文链接:谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...