阿里PC-Agent重构人机交互,精准拆解跨应用指令,自动化办公更进一步

面向复杂PC任务的多模态智能体框架

阿里PC-Agent重构人机交互,精准拆解跨应用指令,自动化办公更进一步

原标题:阿里PC-Agent重构人机交互,精准拆解跨应用指令,自动化办公更进一步
文章来源:量子位
内容字数:4315字

阿里通义实验室提出PC-Agent:赋能PC复杂任务自动化的多模态智能体框架

本文介绍了阿里通义实验室提出的PC-Agent框架,这是一个面向复杂PC任务的多模态智能体框架,旨在实现PC端应用程序间的自动化工作流。该框架显著提升了在复杂PC任务上的性能表现,超越了现有方法。

1. PC任务自动化的挑战:与手机相比,PC场景的复杂性体现在两个方面:一是PC界面包含更密集多样的可交互元素和不同布局的文本,给细粒度感知带来挑战;二是PC常用于生产力场景,涉及更多复杂的App内及跨App工作流,包含更复杂的任务序列。现有方法如UFO和Agent-S在处理这些复杂性方面存在不足。

2. PC-Agent的核心设计:为了解决这些挑战,PC-Agent框架采用了两个关键设计:

2.1 主动感知模块(APM): APM能够实现对屏幕内容的精细感知和操作。对于可交互元素,它通过提取屏幕的accessibility tree获取位置和功能描述信息;对于文本信息,它利用基于多模态大模型(MLLM)的意图理解模块提取目标文本的起止范围,并使用OCR工具进行精确定位和后续操作。

2.2 层次化多智能体协作结构: PC-Agent将复杂指令分解为指令-子任务-动作三个层次,并分别设置Manager、Progress、Decision和Reflection智能体。Manager智能体负责将复杂指令分解为子任务并进行跨子任务通信;Progress智能体跟踪和总结子任务执行进度;Decision智能体根据感知信息和进度信息生成操作决策;Reflection智能体评估操作效果并反馈异常情况。

3. PC-Eval指令集:为了更好地评估智能体在复杂PC任务上的表现,研究人员构建了PC-Eval指令集,包含25条涉及8个常用PC应用的复杂指令,这些指令强调精细化操作和长程决策,更贴近实际工作流。

4. 实验结果与分析:实验结果表明,现有基于先进MLLM的单智能体方法几乎无法完成任何复杂指令。与UFO和Agent-S相比,PC-Agent在精细感知、操作能力和处理子任务间复杂依赖方面表现显著优越。例如,PC-Agent能够正确处理跨应用程序的任务,例如将一个文档的内容翻译后写入另一个文档,而其他方法则无法做到。

5. 样例展示:文章展示了PC-Agent在搜索多项信息并编辑Excel表格、以及在Word文档中进行编辑操作的样例,并强调了Reflection智能体在发现无效操作并反馈给Decision智能体的作用。

6. 总结:PC-Agent框架通过主动感知模块和层次化多智能体协作结构,有效解决了复杂PC任务自动化中的感知和决策难题。其在复杂任务上的显著性能提升,为未来PC端AI自动化应用提供了新的方向。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...