PC Agent-E – 上海交大联合SII推出的智能体训练框架
PC Agent-E是一个由上海交通大学与SII合作开发的高效智能体训练框架。该框架通过312条经人类标注的计算机使用轨迹,利用Claude 3.7 Sonnet模型生成多样化的行动决策,显著提升了数据质量。PC Agent-E在WindowsAgentArena-V2基准测试中实现了241%的性能提升,超越了Claude 3.7 Sonnet的扩展思维模式,成为Windows系统上开源计算机智能体的新一代SOTA。
PC Agent-E是什么
PC Agent-E是上海交通大学与SII联合推出的一种高效智能体训练框架。它通过312条人类标注的计算机使用轨迹,结合Claude 3.7 Sonnet模型,合成多样化的行动决策,从而显著提升数据的质量。该框架包含四大核心模块:轨迹收集、思维链补全、轨迹增强和代理训练。在WindowsAgentArena-V2基准测试中,PC Agent-E实现了241%的性能提升,超越了Claude 3.7 Sonnet的extended thinking模式,成为新一代开源电脑智能体的标杆。
PC Agent-E的主要功能
- 高效训练:只需312条人类标注轨迹,通过数据增强技术显著提升模型性能。
- 跨平台泛化:在OSWorld基准测试中展示出强大的跨平台能力,适用于多种操作系统。
- 任务执行:能够处理各种复杂任务,如文件管理、软件操作和网页浏览等。
- 数据增强:通过合成多样化的行动决策,丰富轨迹数据,提升模型的泛化能力。
PC Agent-E的技术原理
- 轨迹收集(Trajectory Collection):利用PC Tracker工具记录人类操作轨迹,包括任务描述、屏幕截图,以及键盘和鼠标操作。通过简单的标注过程,收集少量高质量的操作轨迹。
- 思维链补全(Thought Completion):基于Claude 3.7 Sonnet模型,为每个动作步骤添加背后的思考逻辑。根据任务描述、历史动作和当前状态,生成符合人类思维的推理过程。
- 轨迹增强(Trajectory Boost):为轨迹的每一步合成更多的动作选择,以捕捉任务的多样性。使用Claude 3.7 Sonnet模型,为每一步生成多个合理的动作决策,丰富轨迹数据。
- 代理训练(Agent Training):在开源模型Qwen2.5-VL-72B的基础上进行训练。通过简单的端到端训练框架,确保模型能够高效地学习和执行任务。
- 评估与验证:在WindowsAgentArena-V2和OSWorld基准测试中评估模型性能,调整合成动作的数量,验证轨迹增强方法对性能提升的关键作用。
PC Agent-E的项目地址
- 项目官网:https://gair-nlp.github.io/PC-Agent-E/
- GitHub仓库:https://github.com/GAIR-NLP/PC-Agent-E
- HuggingFace模型库:https://huggingface.co/henryhe0123/PC-Agent-E
- arXiv技术论文:https://arxiv.org/pdf/2505.13909
PC Agent-E的应用场景
- 自动化办公:自动化完成文档编辑、数据分析等任务,从而提高工作效率。
- 软件测试:模拟用户操作,检测软件中的错误和问题,提升软件的整体质量。
- 教育辅助:作为虚拟助教,帮助学生完成计算机操作任务,提供即时指导。
- 辅助残障人士:提供辅助操作功能,便利残障人士使用计算机。
- 跨平台兼容:在不同操作系统之间迁移和执行任务,实现无缝切换。
常见问题
- PC Agent-E适用于哪些操作系统? PC Agent-E具备强大的跨平台能力,适用于多种操作系统,包括Windows、Linux等。
- 如何获取PC Agent-E? 用户可以通过项目官网或GitHub仓库获取PC Agent-E的相关资料和代码。
- PC Agent-E的训练数据来源是什么? 训练数据来自312条经过人类标注的计算机使用轨迹,确保数据的高质量和多样性。
- PC Agent-E能否处理复杂任务? 是的,PC Agent-E能够处理各种复杂任务,如文件管理、软件使用和网页浏览等。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...