苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V

AIGC动态2年前 (2024)发布 AI科技评论

AIGC动态欢迎阅读

原标题：苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V
关键字：模型,任务,图像,文本,屏幕
文章来源：AI科技评论
内容字数：5711字

内容摘要：

手机厂商自研的端侧模型功能，会超越纯正的大模型团队吗？编译 | 赖文昕
编辑 | 陈彩娴
大模型的诞生，让科技巨头与创业公司们在新一轮的竞赛中再次鸣枪出发，OpenAI、Anthropic、Mistral等创业之星的升起更是证明了在新技术的影响下，大厂并不存在绝对的优势。
不久前，苹果叫停了启动十多年且投入数十亿美元的自动驾驶电动汽车项目，美国总部裁员了600多人，另有近2000名员工转到AI部门。
然而，在目前市场上的主流智能手机品牌中，苹果几乎是唯一一家尚未正式推出大模型的厂商。长期处在领头羊地位的苹果，似乎在大模型这一局中罕见地落后了。
4月8日，苹果发表了一个名为“Ferret-UI”的新工作，这是一个能“看懂”手机屏幕上并能执行任务的多模态模型，专为增强对移动端 UI 屏幕的理解而定制，配备了引用（referring）、定位（grounding）和推理（reasoning）功能。
论文链接：https://arxiv.org/pdf/2404.05719.pdf
半年前，苹果和哥伦比亚大学研究团队联合发布的多模态大模型“Ferret”就已具有较高的图文关联能力，而“Ferre

原文链接：苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V