苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

AIGC动态欢迎阅读

原标题:苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V
关键字:模型,任务,图像,文本,屏幕
文章来源:AI科技评论
内容字数:5711字

内容摘要:


手机厂商自研的端侧模型功能,会超越纯正的大模型团队吗?编译 | 赖文昕
编辑 | 陈彩娴
大模型的诞生,让科技巨头与创业公司们在新一轮的竞赛中再次鸣枪出发,OpenAI、Anthropic、Mistral等创业之星的升起更是证明了在新技术的影响下,大厂并不存在绝对的优势。
不久前,苹果叫停了启动十多年且投入数十亿美元的自动驾驶电动汽车项目,美国总部裁员了600多人,另有近2000名员工转到AI部门。
然而,在目前市场上的主流智能手机品牌中,苹果几乎是唯一一家尚未正式推出大模型的厂商。长期处在领头羊地位的苹果,似乎在大模型这一局中罕见地落后了。
4月8日,苹果发表了一个名为“Ferret-UI”的新工作,这是一个能“看懂”手机屏幕上并能执行任务的多模态模型,专为增强对移动端 UI 屏幕的理解而定制,配备了引用(referring)、定位(grounding)和推理(reasoning)功能。
论文链接:https://arxiv.org/pdf/2404.05719.pdf
半年前,苹果和哥伦比亚大学研究团队联合发布的多模态大模型“Ferret”就已具有较高的图文关联能力,而“Ferre


原文链接:苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

联系作者

文章来源:AI科技评论
作者微信:aitechtalk
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...