GTA

AI工具1年前 (2024)发布 AI工具集

GTA（通用工具智能体基准测试）是由上海交通大学与上海AI实验室联合推出的一项创新基准工具，旨在评估大型语言模型（LLMs）在实际应用中调用工具的能力。该测试结合了真实用户问题、实际部署的工具以及多模态输入输出，创建了一个全面且细致的评估框架，能够有效衡量LLMs在复杂场景中的工具使用表现。

GTA是什么

GTA（通用工具智能体基准测试）是由上海交通大学与上海AI实验室共同开发的一项基准评测，目的是评估大型语言模型（LLMs）在真实环境中调用工具的能力。GTA的设计基于真实用户问题、实际部署的工具以及多模态输入输出，构建了一个全面而细致的评估体系，能够有效地衡量LLMs在复杂场景下的工具应用能力。GTA包括229个由人类设计的问题，涵盖感知、操作、逻辑和创造力等多个领域，要求模型能够推理适合的工具、规划操作步骤，以解决现实中的复杂任务。

GTA

GTA的主要功能

真实用户查询：包含229个由人类编写的问题，这些问题虽然目标简单，但解决的步骤和所需的工具并不明显，LLM需通过推理选择合适的工具并规划操作。
实际部署的工具：GTA提供一个评估平台，涵盖感知、操作、逻辑和创造力四大类别的14种工具，以评估代理在真实任务中的执行能力。
多模态输入输出：GTA引入了空间场景、网页截图、表格、代码片段、手写或打印材料等多模态输入，要求模型处理丰富的上下文信息并提供文本或图像输出。
细致评估：GTA设计了细致的评估指标，包括指令遵循准确率（InstAcc）、工具选择准确率（ToolAcc）、参数预测准确率（ArgAcc）、答案总结准确率（SummAcc）以及最终答案准确率（AnsAcc）。
模型评测：GTA支持逐步模式（step-by-step mode）和端到端模式（end-to-end mode）下对语言模型的评估，全面考察模型的工具使用能力。

GTA的技术原理

数据集构建：GTA的数据集构建分为问题构建和工具链构建两个部分。问题由专家设计示例和标注文档，标注人员根据示例设计更多的问题。工具链由标注人员手动调用已部署的工具构建，确保每个问题都能通过提供的工具得到解决。
工具调用：GTA采用ReAct风格的提示模板，指引LLM以特定格式调用工具，并处理工具返回的结果。该模板支持LLM进行推理与规划，决定何时以及如何调用工具。
多模态处理：GTA要求LLM能够理解和处理多模态输入，包括图像和文本，体现模型的跨模态理解和推理能力。
细致评估指标：GTA设计的评估指标覆盖工具调用的整个过程，从LLM的工具调用到执行结果，提供对模型性能的全面评估。
模型比较：通过比较不同模型在GTA上的表现，揭示现有模型在处理真实世界问题时的工具使用瓶颈，为未来的通用工具智能体改进提供方向。