AIGC动态欢迎阅读
原标题:控制电脑手机的智能体人人都能造,微软开源OmniParser
关键字:华为,模型,数据,图标,基准
文章来源:机器之心
内容字数:0字
内容摘要:
机器之心报道
编辑:Panda大模型控制计算机果真就是未来方向?最近这几天,让大模型具备控制计算机(包括电脑和手机)的相关研究和应用如雨后春笋般不断涌现。
先是 Anthropic 发布了能控制计算机的新版 Claude 3.5 Sonnet,之后荣耀 MagicOS 9.0 来了个全局智能体,再然后,昨天智谱发布了具备「全栈式工具使用能力」的 AutoGLM,同时华为也公布了一项可让 AI 像人类一样操作手机的新研究成果 LiMAC。
很显然,这股热潮完全没有要停息的意思。今天,有网友发现苹果已经默默发布了 Ferret-UI 的两个实现版本(分别基于 Gemma 2B 和 Llama 8B),这是苹果今年五月发布的一个可让 AI 理解手机屏幕的技术,详情参阅《让大模型理解手机屏幕,苹果多模态 Ferret-UI 用自然语言操控手机》。来自 X 用户 Niels Rogge
Ferret-UI 项目地址:https://huggingface.co/papers/2404.05719
不仅如此,微软也低调开源了他们的相关研究 OmniParser,这是一个基于大模型的屏幕解析工具,
原文链接:控制电脑手机的智能体人人都能造,微软开源OmniParser
联系作者
文章来源:机器之心
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...