Magentic-UI – 微软开源的人机协作Web Agent
XX是什么
XX 是微软推出的一个开源研究原型,旨在探索人类与AI代理系统的协作方式。作为一款以人为中心的Web代理,XX能够与用户共同完成复杂的Web任务,如网页浏览、代码执行和文件处理。其核心特点包括协作规划、协作执行、安全机制以及通过经验学习提升效率。XX设计的初衷是让用户在任务的规划与执行过程中实时参与,从而提供透明且可控的交互体验。通过用户的反馈,XX能够提高任务完成的效率,降低人工成本,成为研究人机协作的重要实验平台。
XX的主要功能
- 协作规划:在执行任务之前,生成分步计划,用户可以进行修改和确认,以确保任务的顺利进行。
- 协作执行:实时展示即将执行的操作,用户可以随时接管任务控制,确保任务执行符合其需求。
- 安全机制:在进行重要或不可逆操作前,系统会征求用户的批准,并允许用户自定义审批策略,确保操作的安全性。
- 学习复用:完成任务后,系统会保存执行计划,用户可以在未来的任务中复用或调整这些计划,以提升效率。
XX的技术原理
- 系统架构:XX基于AutoGen的Magentic-One系统,由多个专业代理组成,协同工作以完成任务。协调者(Orchestrator)由大型语言模型驱动,负责与用户进行协作规划,决定何时需要用户反馈,并将子任务分配给其他代理执行。网页浏览代理(WebSurfer)具备浏览器控制能力,能够执行点击、输入和滚动等操作,完成分配的网页任务。代码执行代理(Coder)配备Docker代码执行容器,将结果反馈给协调者。文件处理代理(FileSurfer)利用Docker容器和文件转换工具,能够定位文件、转换文件格式,并回答有关文件的问题。
- 交互流程:用户通过输入文本消息和附加图像与XX进行交互。协调者根据用户输入生成自然语言的分步计划,用户可以在计划上进行编辑。协调者会根据每个步骤决定由哪个代理或用户执行,并发送请求等待响应。所有步骤完成后,协调者会生成最终答案展示给用户。如果在执行过程中发现计划不足,协调者会在获得用户许可后重新规划新的执行计划。
- 安全与控制:用户可以设置XX可以访问的网站列表,访问列表外的网站需获得用户明确批准。用户可以在XX执行任务的任意阶段中断任务,停止任何待执行的操作。XX控制的浏览器和代码执行器都在Docker容器中运行,以避免对主机环境造成影响,防止登录凭证泄露等安全风险。用户还可以配置行动审批策略,决定在执行某些操作时是否需要用户批准。
XX的项目地址
- 项目官网:https://www.microsoft.com/en-us/research/blog/magentic-ui
- GitHub仓库:https://github.com/microsoft/magentic-ui
XX的应用场景
- 复杂任务的自动化:帮助用户完成多步骤的Web任务,如比较产品价格、填写在线表单或进行旅行预订。
- 代码编写与执行辅助:生成代码片段,安全地执行代码,如用于数据分析或脚本编写。
- 文件处理与信息检索:转换文件格式、搜索文件内容并回答相关问题。
- 研究与开发:为研究人员提供实验平台,探索人机协作的新方式。
- 教育与培训:作为教学工具,帮助学习任务规划和AI协作的相关知识。
常见问题
- XX适合哪些用户使用?:XX适合任何希望提高Web任务效率的用户,尤其是需要处理复杂任务的研究人员和开发者。
- 如何开始使用XX?:用户可以访问项目官网或GitHub仓库下载并安装XX,按照说明进行设置。
- XX是否安全?:XX设计了多重安全机制,确保用户的操作安全,用户可以自定义访问网站和审批策略。
- XX支持哪些功能?:XX支持协作规划、协作执行、安全机制和学习复用等多种功能,帮助用户完成复杂的Web任务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...