PhoneBuddy – 腾讯混元开源的 4B 参数手机 Agent 模型
PhoneBuddy:腾讯混元团队打造的性手机AI代理模型
在人工智能飞速发展的浪潮中,腾讯混元团队推出了一款名为PhoneBuddy的创新性手机AI代理模型。这款拥有40亿参数的模型,其核心目标在于探索并实现能够在真实手机环境中训练出强大AI代理的方法。PhoneBuddy的出现,标志着手机AI交互迈入了一个新的纪元。
PhoneBuddy究竟是何方神圣?
PhoneBuddy是由腾讯混元团队精心研发的一款4B参数手机Agent模型,它专注于解决在真实手机使用场景下训练可用AI Agent的难题。该模型独创性地采用了真实App与Mock App相结合的强化学习(RL)训练方案。在涵盖150个真实手机评测任务的测试中,PhoneBuddy在单一App操作和微信小程序任务上的成功率均超越了GPT-5.4,其中AndroidWorld任务的成功率更是达到了惊人的83.2%。这充分证明了,即便是参数量相对较小的模型,通过精妙的环境设计优化,也能展现出强大的竞争力。
PhoneBuddy的强大功能集锦
- 精准的手机界面理解与操作能力:PhoneBuddy能够深刻理解手机屏幕截图的内容,并精准预测下一步需要执行的动作,如点击、滑动或输入等。
- App任务的流畅执行:无论是应用内的搜索、系统设置的调整,还是内容的创作,PhoneBuddy都能在单个原生应用中游刃有余地完成。
- 无缝的跨App信息传递:该模型能够实现信息在多个应用程序之间的流转,从而胜任需要多应用协作的复杂任务。
- 微信小程序生态的深度支持:PhoneBuddy可以轻松驾驭微信小程序环境,完成搜索、预订、查询等一系列便捷操作。
- 真实环境下的任务完成验证:PhoneBuddy不仅仅停留在表面操作,更能对任务的最终完成状态进行严格验证,例如确认消息是否已成功发送,或文档是否已按预期保存。
PhoneBuddy背后的技术奥秘
- 双阶段训练架构的智慧:通过“共享SFT(Supervised Fine-Tuning)”阶段,模型能够同步学习真实App和Mock App的操作模式,从而构建起一套通用的手机操作基础能力。随后进入RL阶段,分别对比仅在真实环境训练与真实+Mock混合训练的效果,以期达到最佳性能。
- Real+Mock混合RL的协同优势:真实App提供了真实的业务逻辑、账号状态以及可能产生的副作用,而PhoneWorld Mock App则提供了可重置、可验证且易于规模化的训练信号。两者优势互补,巧妙地解决了真实世界训练的挑战性与可控环境训练的局限性之间的矛盾。
- PhoneWorld环境的精心构建:基于真实GUI使用结构的洞察,PhoneBuddy团队重建了一个可运行的Android Mock App。这个Mock App保留了原生的页面结构、跳转关系、可交互元素以及至关重要的任务验证器,为RL训练提供了稳定且可靠的奖励信号。
- 任务级验证机制的严谨性:PhoneBuddy直接检查任务的最终状态,而非仅仅模拟操作过程。例如,它会确认酒店的预算筛选是否已生效,或者请假条的内容是否被正确地粘贴,从而确保Agent真正实现了用户的目标。
想要深入了解AI开源项目?微信搜索公众号“AI开源项目交流”,回复“开源”即可加入专属交流群,与众多开发者一同探索前沿技术。
如何驾驭PhoneBuddy,开启AI新篇章?
- 环境准备就绪:首先,需要下载并正确配置PhoneBuddy-4B模型权重及相关依赖环境。同时,准备好作为执行环境的Android真机或模拟器。
- 数据收集的艺术:在SFT训练阶段,需要采集真实App的操作轨迹。与此同时,构建或接入PhoneWorld Mock App,以获取可验证的交互数据。
- 模型训练的精雕细琢:模型训练初期,执行Shared SFT训练,使模型掌握统一的操作格式。随后,选择Real-only或Real+Mock环境进行RL微调。
- 任务部署的便捷性:将训练完成的模型无缝接入手机执行层(如PhoneHarness),然后通过GUI或CLI方式下发任务指令。
- 结果验证的最终确认:利用任务验证器对最终执行状态进行严格检查,确保任务真正完成,而非仅仅界面显示正确。
PhoneBuddy的核心亮点
- 聚焦真实场景的训练导向:PhoneBuddy的训练直接面向真实手机和真实App,而非仅仅追求离线基准测试分数。
- 小巧身躯蕴藏强大性能:仅4B参数的模型,却在单App和微信小程序任务上表现超越GPT-5.4,彰显了环境设计的重要性远超单纯堆砌参数。
- 可验证的RL训练流程:PhoneWorld Mock环境提供了稳定的奖励信号,使得RL训练能够实现规模化扩展。
- 全技术栈的开放共享:从环境构建、模型训练、任务执行到安全隐私评估,PhoneBuddy的全套技术栈均已公开。
- 任务完成度的坚实保障:通过约束跟随和信息转移验证,PhoneBuddy确保Agent能够真正理解并执行用户的意图。
PhoneBuddy的项目入口
- 官方网站:https://phonebuddyai.github.io/
- GitHub代码库:https://github.com/PhoneBuddyAI/phonebuddy
- HuggingFace模型中心:https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B
- 深度技术论文:https://phonebuddyai.github.io/assets/paper.pdf
PhoneBuddy与同类竞品的深度对比
| 对比维度 | PhoneBuddy-4B-Real+Mock | GPT-5.4 |
|---|---|---|
| 模型规模 | 4B(开源) | 闭源大模型(估计数百B级) |
| 训练方式 | Real+Mock 混合RL | 未公开具体的手机Agent训练方案 |
| 单App成功率 | 62.0% | 50.0% |
| 微信小程序成功率 | 56.0% | 40.0% |
| AndroidWorld | 83.2% | 70.7% |
| 跨App成功率 | 18.0% | 未明确列出(文章未提及) |
| 平均成功率 | 54.8% | 48.2% |
| 环境可控性 | 支持Mock环境重置与验证 | 依赖真实API/环境 |
PhoneBuddy的广阔应用前景
- 智能手机助手:用户只需通过自然语言下达指令,PhoneBuddy即可协助完成查询快递、预订酒店、发送消息等日常操作。
- 自动化测试的利器:在真实的App环境中自动执行UI测试流程,高效验证功能完整性和业务逻辑的正确性。
- 无障碍体验的革新者:为视障或操作不便的用户提供强大的支持,帮助他们轻松完成复杂的手机多步操作。
- 跨应用工作流的自动化:实现信息在不同App间的自动流转,例如从邮件提取信息填充表格,或在多个办公应用间高效传递数据。
- 小程序服务的智能化升级:在微信小程序生态内,PhoneBuddy能够自动完成查询、预约、下单等一系列无需安装原生App的任务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


