智能体工作流生成基准WorfBench
原标题:浙大&通义全面评测智能体复杂任务规划能力,18主流大模型全不及格|ICLR2025
文章来源:量子位
内容字数:3421字
WorfBench:大模型智能体工作流评测基准
随着大模型智能体能力的快速发展,其不再局限于简单的API调用,而是能够像人类一样与界面交互,执行复杂操作。然而,评估这类智能体处理复杂任务的核心能力——工作流生成能力——的基准却十分缺乏。现有评估方法存在场景覆盖范围窄、工作流结构复杂性不足以及评估标准不全面等问题。
为了解决这一问题,浙江大学通义团队联合发布了WorfBench——一个涵盖多场景和复杂图结构工作流的统一基准,以及WorfEval——一套系统性评估协议。这项研究已被人工智能顶级会议ICLR 2025录用。
1. WorfBench 的构建与评估
WorfBench 利用GPT自动化构建多场景任务,包括问题求解、函数调用、具体规划和开放式规划等,生成了包含18k个训练样本、2146个测试样本和723个OOD(Out-of-Distribution,超出分布)样本的评测数据集。WorfBench将工作流建模为有向无环图(DAG),更精确地表示现实世界中的复杂串行或并行智能体工作流。为了确保数据质量,研究人员引入了节点链作为中间结构,并采用拓扑排序算法对图结构进行质量过滤,并在测试集上进行人工验证。
WorfEval则通过子序列和子图匹配算法,分别从链结构和图结构两个维度对大模型生成的工作流进行量化评估,从而精准衡量模型的线性规划和图规划能力。
2. 基准评测结果
研究人员在WorfBench上对18种不同规模的主流大模型进行了评估,包括闭源模型(如O1、GPT-4、Claude-3.5)和开源模型(如Llama系列、Qwen系列等)。结果显示,模型在图结构工作流预测上的能力远未达到现实需求,即使是GPT-4,其图结构工作流的平均性能也仅为52.47%。即使在训练集上表现出色,模型在OOD任务上的泛化能力仍然有待提高,这表明仅通过数据拟合难以有效学习结构化工作流规划能力。
3. 工作流生成分析
研究人员发现大模型在工作流生成中存在显著的线性规划与图规划能力差距,且图规划能力与模型规模并非完全正相关。部分7B模型在某些任务上甚至超越了13B模型,这可能与模型训练数据的规模和质量有关。即使提供标签节点链以简化图结构预测任务,模型的图规划性能仍不理想,这表明图规划的复杂性在于对任务依赖关系的理解。
进一步的错误分析显示,大模型在工作流生成中的典型错误主要集中在任务分解的粒度、任务描述的明确性、图结构的正确性以及输出格式的规范性四个方面,这些错误大多源于模型对环境知识的缺乏。
4. 工作流知识增强智能体
研究表明,工作流可以作为一种流程先验知识直接指导智能体的规划过程,帮助其在复杂任务中更高效地执行,还可以作为链式思考(Chain-of-Thought,CoT)的增强手段。工作流的图结构特性能够实现并行任务执行,显著减少推理时间,提升任务完成效率。
总而言之,WorfBench和WorfEval为大模型智能体工作流规划能力的评估提供了一个重要的基准,也为未来研究指明了方向,例如优化提示策略、采用多智能体架构,以及将世界知识或世界模型更深入地融入大模型中。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破