OS-Genesis 为生成高质量 GUI agents 训练轨迹数据提供了一个有前景的方向
原标题:OS-Genesis来了,自动收集和标注Agent数据,高效且多样
文章来源:机器之心
内容字数:8560字
OS-Genesis: 自动化构建GUI代理轨迹数据的新方法
本文介绍了上海人工智能实验室、香港大学等机构合作提出的OS-Genesis框架,该框架旨在自动化构建高质量的GUI代理轨迹数据,解决当前数字代理领域数据稀缺性的关键挑战。
1. 背景与挑战
有效的数字代理需要具备任务规划和动作执行能力。构建高质量的GUI代理的关键在于高质量的轨迹数据,但现有的数据采集方法存在高成本和数据局限性等问题:人工标注成本高昂,基于预定义任务的合成数据缺乏多样性,且容易与真实环境脱节。
2. OS-Genesis框架
OS-Genesis的核心思想是通过反向任务合成(Reverse Task Synthesis)来生成高质量的GUI轨迹数据。该框架无需人工监督或预定义任务,其流程如下:
- 动作记录与状态捕捉:系统性地执行基本GUI动作(CLICK、TYPE、SCROLL等),记录动作前后状态变化,生成⟨状态前,动作,状态后⟩三元组数据。
- 低阶指令生成:利用GPT-4等大型语言模型,将三元组转化为描述具体操作的低阶指令(例如,“点击下拉菜单以显示选项”)。
- 高阶任务生成:基于低阶指令和GUI环境,生成更抽象且目标明确的高阶指令(例如,“配置应用程序设置”)。
- 轨迹构建与奖励模型:利用生成的高阶指令执行任务,构建完整的轨迹数据。引入轨迹奖励模型(TRM)对轨迹进行质量评估和筛选,基于完成度和一致性两个指标对轨迹打分,从而保留高质量的轨迹数据。
通过反向任务合成和奖励模型,OS-Genesis实现了从任务生成到轨迹构建的端到端流程,高效地生成多样化、语义丰富的轨迹数据。
3. 实验结果
OS-Genesis在AndroidWorld、AndroidControl和WebArena等多个基准测试中进行了实验,结果表明,基于OS-Genesis生成的数据训练的GUI代理显著优于基线方法,在任务成功率、规划能力和泛化能力方面都有显著提升。尤其在复杂任务和动态环境中,OS-Genesis展现出更强的优势。
4. 数据质量分析
文章对OS-Genesis生成的数据质量进行了详尽分析,将生成的高阶指令和轨迹数据与人工标注数据进行了对比。结果显示,OS-Genesis生成的高阶指令在任务执行中显著优于人工编写的指令,生成的轨迹数据也显著缩小了与人工标注数据之间的性能差距,性能保留率超过80%。
5. 总结与展望
OS-Genesis提供了一种全新的GUI代理轨迹数据构建方法,克服了以往数据收集中的关键瓶颈,为构建高质量的通用GUI代理提供了可靠的数据支持,推动了数字世界自动化的发展。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台