AIGC动态欢迎阅读
原标题:Windows、Office直接上手,大模型智能体操作电脑太6了
关键字:模型,任务,能力,动作,用户
文章来源:机器之心
内容字数:6098字
内容摘要:
机器之心报道
机器之心编辑部当我们谈到 AI 助手的未来,很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手,更是他与先进科技的沟通者。如今,大模型的出现颠覆了人类使用工具的方式,我们或许离这样的科幻场景又近了一步。想象一下,如果一个多模态 Agent,能够直接像人类一样通过键盘和鼠标直接操控我们身边的电脑,这将是多么令人振奋的突破。AI助手贾维斯
近期,吉林大学人工智能学院发布了一项利用视觉大语言模型直接控制电脑 GUI 的最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》,它将这一想象映了现实。该工作提出了 ScreenAgent 模型,首次探索在无需辅助定位标签的情况下,利用 VLM Agent 直接控制电脑鼠标和键盘,实现大模型直接操作电脑的目标。此外,ScreenAgent 通过「计划-执行-反思」的自动化流程首次实现对 GUI 界面的连续控制。该工作是对人机交互方式的一次探索和革新,同时开源了具备精准定位信息的数据集、控制器、训练代码
原文链接:Windows、Office直接上手,大模型智能体操作电脑太6了
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...