颠覆手机操控体验：华为与哈工深联合发布SPA-Bench评估新标准

华为诺亚方舟实验室与哈工大（深圳）联合提出的手机操控 智能体评估框架。

原标题：华为与哈工深等最新研究成果：SPA-Bench，手机操控智能体评估新标准
文章来源：AI科技评论
内容字数：9414字

随着智能手机在日常生活中的普及，手机操控智能体的研究逐渐成为大模型领域的重要方向。然而，现有基准测试存在多种局限性，亟需提升评估标准。华为诺亚方舟实验室与哈尔滨工业大学（深圳）联合提出的SPA-Bench（SmartPhone Agent Benchmark）为这一领域提供了新的评估框架。

现有的手机智能体评估框架主要集中于简单的系统应用任务，缺乏对复杂跨应用操作和多语言场景的全面支持。此外，大多数基准测试中涉及的智能体种类有限，研究者难以进行深入比较，降低了研究结论的全面性。现有验证机制也缺乏灵活性，无法适应UI更新的需求。

SPA-Bench通过以下三方面解决现有基准测试的痛点：

（1）任务设计：涵盖340个任务，包括单应用和跨应用任务，任务复杂性分为，增加了对真实场景的覆盖。

（2）智能体框架：支持多种智能体集成，具有高度灵活的模块化设计，研究者可快速集成与比较不同模型。

（3）自动化流程：提供全面的任务验证流程及多维度评估指标，提高评估的准确性与效率。

实验结果显示，不同智能体在任务成功率上的表现差异显著。M3A为表现最佳的智能体，其在单应用任务中的成功率高于跨应用任务，同时英文任务的成功率也明显优于中文任务。此外，成功率与资源消耗之间存在权衡，高成功率往往伴随着更高的计算资源和时间成本。

未来研究可集中在增强视觉感知、丰富数据集多样性、改进记忆保留机制、强化错误处理、优化任务终止判断以及提升执行效率与成本优化等方面。这将进一步提升手机操控智能体的性能，推动其实际应用。

SPA-Bench为手机操控智能体研究提供了全面的评估工具，填补了现有基准测试的空白，展望未来有望推动手机智能体技术的普及与发展。

文章来源：AI科技评论
作者微信：
作者简介：雷峰网旗下AI新媒体。聚焦AI前沿研究，关注AI工程落地。

文章版权归作者所有，未经允许请勿转载。

暂无评论...