超越GPT-4V，苹果多模态大模型上新！

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：超越GPT-4V，苹果多模态大模型上新！
关键字：任务,模型,数据,屏幕,性能
文章来源：新智元
内容字数：6105字

内容摘要：

新智元报道编辑：flynne
【新智元导读】苹果开发的多模态模型Ferret-UI增强了对屏幕的理解和交互，在引用、基础和推理方面表现出了卓越的性能，这些增强功能的出现预示着巨大的进步。一句话Siri就能帮忙打开美团外卖下订单的日子看来不远啦！
4月8日，苹果发布了其最新的多模态大语言模型（MLLM ）——Ferret-UI，能够更有效地理解和与屏幕信息进行交互，在所有基本UI任务上都超过了GPT-4V！
论文地址：https://arxiv.org/pdf/2404.05719.pdf
虽然苹果前段时间经历了泰坦项目的沉没，但看目前的形式，这是又要开卷的节奏呀~
不少人十分期待，这项技术如果在苹果的Siri上，Siri岂不是要变得聪明绝顶了！
众所周知，通用域多模态大型语言模型（MLLM ）在理解和有效交互的能力方面往往不足。
而Ferret-UI被称之为是一种新的MLLM，专为理解移动UI屏幕而量身定制，具备指向、定位和推理等多种能力。
Ferret-UI能够通过灵活的输入格式（点、框、涂鸦）和基础任务（例如：查找小部件、查找图标、查找文本、小部件列表）在移动用户界面屏幕上执行引

原文链接：超越GPT-4V，苹果多模态大模型上新！

联系作者

文章来源：新智元
作者微信：AI_era
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

阅读原文

# AIGC动态 # 任务 # 屏幕 # 性能 # 数据 # 模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

超越GPT-4V，苹果多模态大模型上新！

AIGC动态欢迎阅读

内容摘要：

联系作者

ICDAR24 历史地图文字识别比赛欢迎参与

黑科技！AI届的“指环王”，已接入ChatGPT和Gemini！一个戒指可操控手机和智能家居，韩国公司研发

相关文章

暂无评论

ChatGPT

玩虚拟模特？

超越GPT-4V，苹果多模态大模型上新！

AIGC动态欢迎阅读

内容摘要：

联系作者

ICDAR24 历史地图文字识别比赛欢迎参与

黑科技 ！AI届的“指环王”，已接入ChatGPT和Gemini！一个戒指可操控手机和智能家居，韩国公司研发

相关文章

暂无评论

ChatGPT

玩虚拟模特？

黑科技！AI届的“指环王”，已接入ChatGPT和Gemini！一个戒指可操控手机和智能家居，韩国公司研发