PC Agent-E

PC Agent-E – 上海交大联合SII推出的智能体训练框架

PC Agent-E

PC Agent-E是一个由上海交通大学与SII合作开发的高效智能体训练框架。该框架通过312条经人类标注的计算机使用轨迹,利用Claude 3.7 Sonnet模型生成多样化的行动决策,显著提升了数据质量。PC Agent-E在WindowsAgentArena-V2基准测试中实现了241%的性能提升,超越了Claude 3.7 Sonnet的扩展思维模式,成为Windows系统上开源计算机智能体的新一代SOTA。

PC Agent-E是什么

PC Agent-E是上海交通大学与SII联合推出的一种高效智能体训练框架。它通过312条人类标注的计算机使用轨迹,结合Claude 3.7 Sonnet模型,合成多样化的行动决策,从而显著提升数据的质量。该框架包含四大核心模块:轨迹收集、思维链补全、轨迹增强和代理训练。在WindowsAgentArena-V2基准测试中,PC Agent-E实现了241%的性能提升,超越了Claude 3.7 Sonnet的extended thinking模式,成为新一代开源电脑智能体的标杆。

PC Agent-E的主要功能

  • 高效训练:只需312条人类标注轨迹,通过数据增强技术显著提升模型性能。
  • 跨平台泛化:在OSWorld基准测试中展示出强大的跨平台能力,适用于多种操作系统。
  • 任务执行:能够处理各种复杂任务,如文件管理、软件操作和网页浏览等。
  • 数据增强:通过合成多样化的行动决策,丰富轨迹数据,提升模型的泛化能力。

PC Agent-E的技术原理

  • 轨迹收集(Trajectory Collection):利用PC Tracker工具记录人类操作轨迹,包括任务描述、屏幕截图,以及键盘和鼠标操作。通过简单的标注过程,收集少量高质量的操作轨迹。
  • 思维链补全(Thought Completion):基于Claude 3.7 Sonnet模型,为每个动作步骤添加背后的思考逻辑。根据任务描述、历史动作和当前状态,生成符合人类思维的推理过程。
  • 轨迹增强(Trajectory Boost):为轨迹的每一步合成更多的动作选择,以捕捉任务的多样性。使用Claude 3.7 Sonnet模型,为每一步生成多个合理的动作决策,丰富轨迹数据。
  • 代理训练(Agent Training):在开源模型Qwen2.5-VL-72B的基础上进行训练。通过简单的端到端训练框架,确保模型能够高效地学习和执行任务。
  • 评估与验证:在WindowsAgentArena-V2和OSWorld基准测试中评估模型性能,调整合成动作的数量,验证轨迹增强方法对性能提升的关键作用。

PC Agent-E的项目地址

PC Agent-E的应用场景

  • 自动化办公:自动化完成文档编辑、数据分析等任务,从而提高工作效率。
  • 软件测试:模拟用户操作,检测软件中的错误和问题,提升软件的整体质量。
  • 教育辅助:作为虚拟助教,帮助学生完成计算机操作任务,提供即时指导。
  • 辅助残障人士:提供辅助操作功能,便利残障人士使用计算机。
  • 跨平台兼容:在不同操作系统之间迁移和执行任务,实现无缝切换。

常见问题

  • PC Agent-E适用于哪些操作系统? PC Agent-E具备强大的跨平台能力,适用于多种操作系统,包括Windows、Linux等。
  • 如何获取PC Agent-E? 用户可以通过项目官网或GitHub仓库获取PC Agent-E的相关资料和代码。
  • PC Agent-E的训练数据来源是什么? 训练数据来自312条经过人类标注的计算机使用轨迹,确保数据的高质量和多样性。
  • PC Agent-E能否处理复杂任务? 是的,PC Agent-E能够处理各种复杂任务,如文件管理、软件使用和网页浏览等。
阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...