控制电脑手机的智能体人人都能造,微软开源OmniParser

控制电脑手机的智能体人人都能造,微软开源OmniParser

AIGC动态欢迎阅读

原标题:控制电脑手机的智能体人人都能造,微软开源OmniParser
关键字:华为,模型,数据,图标,基准
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
编辑:Panda大‍模型控制计算机果真就是未来方向?最近这几天,让大模型具备控制计算机(包括电脑和手机)的相关研究和应用如雨后春笋般不断涌现。
先是 Anthropic 发布了能控制计算机的新版 Claude 3.5 Sonnet,之后荣耀 MagicOS 9.0 来了个全局智能体,再然后,昨天智谱发布了具备「全栈式工具使用能力」的 AutoGLM,同时华为也公布了一项可让 AI 像人类一样操作手机的新研究成果 LiMAC。
很显然,这股热潮完全没有要停息的意思。今天,有网友发现苹果已经默默发布了 Ferret-UI 的两个实现版本(分别基于 Gemma 2B 和 Llama 8B),这是苹果今年五月发布的一个可让 AI 理解手机屏幕的技术,详情参阅《让大模型理解手机屏幕,苹果多模态 Ferret-UI 用自然语言操控手机》。来自 X 用户 Niels Rogge
Ferret-UI 项目地址:https://huggingface.co/papers/2404.05719
不仅如此,微软也低调开源了他们的相关研究 OmniParser,这是一个基于大模型的屏幕解析工具,


原文链接:控制电脑手机的智能体人人都能造,微软开源OmniParser

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...