PC Agent-E

PC Agent-E – 上海交大联合SII推出的智能体训练框架

PC Agent-E

PC Agent-E是一个由上海交通大学与SII合作开发的高效智能体训练框架。该框架通过312条经人类标注的计算机使用轨迹，利用Claude 3.7 Sonnet模型生成多样化的行动决策，显著提升了数据质量。PC Agent-E在WindowsAgentArena-V2基准测试中实现了241%的性能提升，超越了Claude 3.7 Sonnet的扩展思维模式，成为Windows系统上开源计算机智能体的新一代SOTA。

PC Agent-E是什么

PC Agent-E是上海交通大学与SII联合推出的一种高效智能体训练框架。它通过312条人类标注的计算机使用轨迹，结合Claude 3.7 Sonnet模型，合成多样化的行动决策，从而显著提升数据的质量。该框架包含四大核心模块：轨迹收集、思维链补全、轨迹增强和代理训练。在WindowsAgentArena-V2基准测试中，PC Agent-E实现了241%的性能提升，超越了Claude 3.7 Sonnet的extended thinking模式，成为新一代开源电脑智能体的标杆。

PC Agent-E的主要功能

高效训练：只需312条人类标注轨迹，通过数据增强技术显著提升模型性能。
跨平台泛化：在OSWorld基准测试中展示出强大的跨平台能力，适用于多种操作系统。
任务执行：能够处理各种复杂任务，如文件管理、软件操作和网页浏览等。
数据增强：通过合成多样化的行动决策，丰富轨迹数据，提升模型的泛化能力。

PC Agent-E的技术原理

轨迹收集（Trajectory Collection）：利用PC Tracker工具记录人类操作轨迹，包括任务描述、屏幕截图，以及键盘和鼠标操作。通过简单的标注过程，收集少量高质量的操作轨迹。
思维链补全（Thought Completion）：基于Claude 3.7 Sonnet模型，为每个动作步骤添加背后的思考逻辑。根据任务描述、历史动作和当前状态，生成符合人类思维的推理过程。
轨迹增强（Trajectory Boost）：为轨迹的每一步合成更多的动作选择，以捕捉任务的多样性。使用Claude 3.7 Sonnet模型，为每一步生成多个合理的动作决策，丰富轨迹数据。
代理训练（Agent Training）：在开源模型Qwen2.5-VL-72B的基础上进行训练。通过简单的端到端训练框架，确保模型能够高效地学习和执行任务。
评估与验证：在WindowsAgentArena-V2和OSWorld基准测试中评估模型性能，调整合成动作的数量，验证轨迹增强方法对性能提升的关键作用。