PawBench

PawBench – 阿里通义推出的通用智能体评测基准

PawBench：革新通用智能体评测体系，揭示模型与框架协同之秘

在通用人工智能（AGI）日益发展的浪潮中，智能体（Agent）作为实现AGI的关键载体，其性能评估变得尤为重要。然而，传统的评测体系往往侧重于单一的模型能力，忽略了支撑模型运行的框架（Harness）的关键作用。为此，通义实验室重磅推出了 PawBench，一个开创性的通用智能体评测基准，旨在打破模型与框架的评测壁垒，为个人助理及各类Agent场景提供一套全面、深入的评估方案。

PawBench：超越模型本身的评测新维度

PawBench 的核心价值在于其联合评测理念。它不再将模型（底座模型）与运行框架（Harness）视为孤立的评测对象，而是将它们置于同一评测体系之下，全面考察两者协同工作时的综合表现。PawBench v1.0 构建了一个庞大且真实的评测数据集，包含150个精心设计的真实任务，并细分为4050个测试单元。通过对9种不同模型与3种运行框架进行交叉评测，PawBench 能够精准识别出模型与Harness的最佳组合，为Harness开发者提供宝贵的洞察，帮助他们快速定位并解决框架层面的问题，从而验证和优化其性能。

PawBench 的核心功能亮点

模型与框架的深度融合评测：PawBench 独创性地将大型语言模型（LLM）与运行框架（Harness）纳入统一的评测框架，全面评估它们联合工作的效果，揭示了“模型 × Harness”的协同潜力。
海量真实任务场景：评测集由150个贴近现实的复杂任务组成，共计4050个测试单元。这些任务从6个高质量的Agent评测集中精挑细选并整合而来，确保了评测的代表性和实用性。
精细化的五维标签体系：每项评测任务都经过精细的结构化标注，涵盖应用场景、核心原子能力、任务复杂度（L1-L3）、输入模态（文本、多模态等）以及运行环境等五个关键维度。这使得评测结果能够进行多维度、深层次的分析。
智能混合评分机制：PawBench 采用一种创新的混合评分策略，结合了基于规则断言的自动评分器（用于客观衡量任务完成度）和LLM-as-judge（用于评估语义质量），评分范围从0到1，力求客观与灵活并存。
灵活多样的榜单视图：用户可以根据需求切换查看Overall（包含全部150道任务）、Text（仅文本任务，124道）和Multimodal（多模态任务，26道）三个维度的榜单，为不同侧重点的评估提供便利。
全流程执行轨迹记录：所有任务均在的Docker沙箱环境中运行，系统完整保留了任务的执行轨迹、评分器的产物以及运行时的环境快照，极大地增强了评测结果的可复现性和问题追踪能力。
深度诊断与分析能力：PawBench 支持按模型规模、模态、任务类型、技能领域等多种维度进行切片分析，能够精准定位Harness在具体行为上的缺陷，为开发者提供 actionable insights。

PawBench 的技术实现原理

交叉评测矩阵的构建：PawBench 构建了一个由9个模型、3个Harness和150道任务构成的三维评测空间。通过精妙的控制变量法，PawBench 能够清晰地隔离出模型能力和框架能力的各自贡献，避免了相互干扰。
五维标签体系的赋能：通过对任务进行应用场景、原子能力、复杂度、输入模态和运行环境这五个维度的结构化标注，PawBench 实现了对任务的精细化分类，从而支持多维度切片下的深度分析。
混合评分机制的创新：PawBench 巧妙地融合了确定性规则断言（如文件存在性、字段匹配、退出码检查）与LLM-as-judge的语义评估能力，在保证客观性的同时，也赋予了评分更高的灵活性和鲁棒性。
Docker 沙箱的隔离保障：每个测试单元都在一个的Docker容器内执行，确保了评测环境的隔离性。系统会捕获详细的执行轨迹、工作区的产物以及运行时的环境快照，从而保证了结果的可复现性和问题的可追溯性。
产物级硬校验的严谨性：PawBench 通过检查文件是否成功落地、diff 文件是否生成、以及测试用例是否通过等实质性指标，有效防止了模型“虚假完工”的情况，确保了评测的真实性和有效性。

如何开启 PawBench 评测之旅

克隆项目源码：访问 PawBench 的官方GitHub仓库（agentscope-ai/PawBench），即可轻松克隆评测框架。
配置运行环境：根据指引，写入待测模型的API密钥，并配置Harness的运行环境，确保一切就绪。
任务选择与启动：您可以选择评测集中的特定切片（如Text或Multimodal任务），或者直接启动全量任务进行评测。
自动化评测执行：系统将在Docker沙箱中自动执行任务，并全程记录执行轨迹与产物。
获取权威评分：通过结合自动评分器和LLM-as-judge的混合权重机制，获得最终的综合评分。
提交榜单与排名：访问PawBench的官方网站（agentscope-ai.github.io/PawBench），提交您的评测结果，并与其他优秀方案一较高下。

PawBench 的核心竞争优势

精准诊断 Harness 缺陷：通过对4050个测试单元进行细致的切片分析，PawBench 能够精确地定位Harness在Skill加载、路径感知、工具配置等方面的具体行为缺陷，为框架优化提供靶向指导。
真实可复现的评测体验：基于Docker沙箱的运行机制，完整保留了执行轨迹与环境快照。即使出现失败案例，也能逐层回溯，深入分析问题根源。
零门槛的开箱即用体验：PawBench 致力于还原开发者首次克隆后的默认体验，无需繁琐的配置，即可开始评测，真正实现“零门槛开箱即用”。
持续有效的回归验证：对于Harness的每一次修复或优化，都可以通过重新运行PawBench进行切片跑分，直观地验证优化是否真正解决了对应维度的问题。
量化 Harness 差距，赋能小模型：PawBench 首次证明了Harness之间的性能差距（最高可达6.4分）堪比一次重大的模型版本升级，为小型模型通过优化Harness实现对大模型的超越提供了理论依据和实践路径。

PawBench 的应用场景

赋能 Harness 开发者优化：通过对框架在Skill加载、路径感知、Web工具可用性等方面的细致切片分析，帮助开发者精准定位并修复Harness的缺陷。
为模型选型提供决策支持：PawBench 能够帮助用户根据纯文本、多模态、Skill调用或Web搜索等不同任务类型的表现，选择最适合的模型与Harness组合。
实现基准回归测试的自动化：当Harness进行迭代修复后，可以重新运行PawBench进行跑分，以验证优化是否确实解决了对应的问题维度。
推动学术研究的创新：PawBench 提供了一个可复现的交叉评测基准，为通用智能体研究提供了有力支撑，促进了模型与框架的协同进化。

阅读原文