让大模型理解手机屏幕，苹果多模态Ferret-UI用自然语言操控手机

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：让大模型理解手机屏幕，苹果多模态Ferret-UI用自然语言操控手机
关键字：任务,屏幕,解读,模型,图像
文章来源：机器之心
内容字数：6937字

内容摘要：

机器之心报道
编辑：陈萍此次，苹果提出的多模态大语言模型（MLLM） Ferret-UI ，专门针对移动用户界面（UI）屏幕的理解进行了优化，其具备引用、定位和推理能力。移动应用已经成为我们日常生活的一大重要组成部分。使用移动应用时，我们通常是用眼睛看，用手执行对应操作。如果能将这个感知和交互过程自动化，用户也许能获得更加轻松的使用体验。此外，这还能助益手机辅助功能、多步 UI 导航、应用测试、可用性研究等。
为了在用户界面内实现感知和交互的无缝自动化，就需要一个复杂的系统，其需要具备一系列关键能力。
这样一个系统不仅要能完全理解屏幕内容，还要能关注屏幕内的特定 UI 元素。以视觉理解为基础，它应当有能力进一步将自然语言指令映射到给定 UI 内对应的动作、执行高级推理并提供其交互的屏幕的详细信息。
为了满足这些要求，必须开发出能在 UI 屏幕中确定相关元素位置并加以引述的视觉 – 语言模型。其中，确定相关元素位置这一任务通常被称为 grounding，这里我们将其译为「定基」，取确定参考基准之意；而引述（referring）是指有能力利用屏幕中特定区域的图像信息。
多模态大型语言模型（

原文链接：让大模型理解手机屏幕，苹果多模态Ferret-UI用自然语言操控手机