AgentCPM-GUI – 清华联合面壁智能开源的端侧GUI智能体模型
AgentCPM-GUI是什么
AgentCPM-GUI 是由清华大学与面壁智能团队联合开发的一款开源端侧图形用户界面(GUI)代理,专为中文应用进行优化。基于 MiniCPM-V 模型(80 亿参数),该系统能够接收智能手机的屏幕截图,并自主完成用户指定的任务。通过对大规模中文安卓应用界面数据的预训练,AgentCPM-GUI 显著增强了对 GUI 元素的理解和定位能力。在中文 Grounding Benchmark 和 Agent Benchmark 上,该产品均达到了最先进的性能标准,成为首个针对中文应用进行精细优化的开源 GUI 代理。
AgentCPM-GUI的主要功能
- 中文应用操作:能够理解并操作多种中文应用程序,例如高德地图、大众点评、哔哩哔哩和小红书等。
- 任务自动化执行:接受用户的指令后,自动拆分任务步骤,并在相应应用中精确执行,例如下单、播放视频等。
- 高质量 GUI 定位:能够准确定位屏幕上的按钮、输入框、标签等各种 GUI 元素。
- OCR 定位与识别:能够识别屏幕中的文本信息,并根据文本内容执行相应的操作。
AgentCPM-GUI的技术原理
- 预训练:基于大规模中文安卓应用界面的数据进行预训练,覆盖了常见的按钮、输入框、标签和图标等通用 GUI 控件。通过高质量的 GUI Grounding 预训练,提升了模型对视觉界面元素的理解与定位能力,同时具备 OCR Grounding 能力,能够准确定位和识别屏幕中的文本信息。
- 强化微调(RFT):设计了动作格式奖励、动作类型奖励和动作参数奖励三个维度的奖励函数,以引导模型自主生成高质量的思维链过程。在奖励函数的引导下,模型不断优化策略,提升任务执行的成功率。
- 紧凑动作空间设计:采用紧凑的 JSON 格式,将动作平均长度压缩至 9.7 个 token,减少推理过程中的计算和内存需求。这种设计使模型更适合在移动设备上部署,加快端侧推理速度,并缓解隐私安全问题。
AgentCPM-GUI的项目地址
- GitHub仓库:https://github.com/OpenBMB/AgentCPM-GUI
- HuggingFace模型库:https://huggingface.co/openbmb/AgentCPM-GUI
AgentCPM-GUI的应用场景
- 智能助手:帮助用户通过语音或文字指令完成各种应用操作,如点外卖、播放音乐等。
- 自动化测试:用于自动化测试中文应用的功能和界面,从而提高测试效率。
- 老年关怀:简化老年人使用智能手机的操作,例如视频通话、查看天气等。
- 视障人士辅助:结合语音指令和屏幕阅读器,帮助视障人士更便捷地使用应用。
- 企业应用自动化:自动执行企业中的重复性任务,如数据录入和报表生成,从而提升工作效率。
常见问题
- 如何安装AgentCPM-GUI?:用户可以通过访问GitHub仓库获取详细的安装指南。
- AgentCPM-GUI支持哪些设备?:该工具主要支持运行安卓系统的智能手机。
- 如何提高任务执行的准确性?:确保提供清晰的指令,并使用高质量的屏幕截图,以便系统更好地理解用户需求。
- 使用AgentCPM-GUI是否安全?:AgentCPM-GUI设计时考虑了用户隐私,数据处理过程遵循严格的隐私保护标准。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...