ScreenAgent – 基于视觉语言模型的计算机控制智能体

ScreenAgent是一款由吉林大学人工智能学院的研究团队研发的计算机控制智能体,基于视觉语言模型(VLM)构建,能够与真实计算机屏幕进行智能交互。它的核心优势在于通过分析屏幕截图,生成相应的鼠标和键盘操作,从而实现对图形用户界面的有效操控,完成多步骤的复杂任务。

ScreenAgent是什么

ScreenAgent是吉林大学人工智能学院研究团队开发的一款智能计算机控制代理,利用视觉语言模型(VLM),使其能够与计算机屏幕进行实时交互。研究者们设计了一个“计划-执行-反思”的工作流程,以指导智能体与计算机屏幕的持续互动。它的主要功能是根据屏幕截图生成相应的鼠标和键盘动作,以便操控图形用户界面(GUI),从而完成复杂的多步骤任务。

ScreenAgent - 基于视觉语言模型的计算机控制智能体

ScreenAgent的官网入口

ScreenAgent的运行流程

ScreenAgent - 基于视觉语言模型的计算机控制智能体

  • 屏幕观察:ScreenAgent能够实时观察和理解计算机屏幕上的内容,通过VNC协议获取桌面操作系统的实时图像。
  • 动作生成:在分析完整的屏幕截图后,ScreenAgent能生成相应的鼠标和键盘操作。这些操作以JSON格式输出,包括移动鼠标、点击、双击、滚动、拖动及键盘输入等。
  • 任务规划:根据用户的任务提示,ScreenAgent能够将复杂任务分解成多个子任务,并为每个子任务制定相应的动作序列,这需要对任务的理解和策略制定。
  • 执行动作:在规划完成后,ScreenAgent会执行已规划的子任务,通过发送鼠标和键盘命令,实现用户的目标。
  • 反思评估:在执行动作后,ScreenAgent会评估结果,决定是否重试当前子任务、继续下一个子任务或调整整体计划。

ScreenAgent的技术原理

  • 视觉语言模型(VLM)
    • VLM是一种综合视觉和语言处理能力的模型,能够理解图像内容并生成相应的自然语言描述。
    • 在ScreenAgent中,VLM用于解析屏幕截图,理解用户的任务提示,并规划一系列动作以完成任务。
  • 强化学习环境
    • ScreenAgent通过VNC协议与真实计算机屏幕互动,创建了一个强化学习环境。在此环境中,智能体可以观察屏幕状态(状态空间)、执行动作(动作空间),并根据结果获得奖励(奖励函数)。
  • 控制流程
    • 计划(Planning):智能体根据当前屏幕截图和任务提示,分解任务并规划一系列子任务和相应的动作序列。
    • 执行(Acting):智能体根据规划阶段的输出,通过发送鼠标和键盘命令来操控计算机界面。
    • 反思(Reflecting):智能体评估执行动作后的结果,决定是否需要重试、继续或调整计划。
  • 数据集和评估
    • ScreenAgent数据集包含了完成各种日常计算机任务时的屏幕截图和动作序列,用于模型的训练和评估。
    • CC-Score(Vision Language Computer Control Score)是一个细粒度的评估指标,用于衡量智能体在计算机控制任务中的表现。
  • 模型训练
    • ScreenAgent模型通过在ScreenAgent数据集上进行训练,学习如何有效地规划、执行和反思,以完成复杂的计算机控制任务。训练过程中采用多种技术,包括监督学习、强化学习以及人类反馈循环(RLHF)等。

应用场景

ScreenAgent可以广泛应用于自动化办公、软件测试、游戏操作等领域,帮助用户高效完成复杂的计算机任务,提升工作效率。

常见问题

  • ScreenAgent的主要优势是什么?
    ScreenAgent结合了视觉理解与自动化操作能力,能够高效地处理复杂的计算机任务,减少人工干预。
  • 如何开始使用ScreenAgent?
    用户可以通过访问其[GitHub代码库](https://github.com/niuzaisheng/ScreenAgent)获取相关代码和使用说明。
  • ScreenAgent支持哪些操作系统?
    ScreenAgent通过VNC协议与计算机屏幕交互,通常支持主流操作系统,如Windows和Linux。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...