GTA – 上海AI Lab联合交大推出评估通用工具智能体的基准测试

GTA(通用工具智能体基准测试)是由上海交通大学与上海AI实验室联合推出的一项创新基准工具,旨在评估大型语言模型(LLMs)在实际应用中调用工具的能力。该测试结合了真实用户问题、实际部署的工具以及多模态输入输出,创建了一个全面且细致的评估框架,能够有效衡量LLMs在复杂场景中的工具使用表现。

GTA是什么

GTA(通用工具智能体基准测试)是由上海交通大学与上海AI实验室共同开发的一项基准评测,目的是评估大型语言模型(LLMs)在真实环境中调用工具的能力。GTA的设计基于真实用户问题、实际部署的工具以及多模态输入输出,构建了一个全面而细致的评估体系,能够有效地衡量LLMs在复杂场景下的工具应用能力。GTA包括229个由人类设计的问题,涵盖感知、操作、逻辑和创造力等多个领域,要求模型能够推理适合的工具、规划操作步骤,以解决现实中的复杂任务。

GTA - 上海AI Lab联合交大推出评估通用工具智能体的基准测试

GTA的主要功能

  • 真实用户查询:包含229个由人类编写的问题,这些问题虽然目标简单,但解决的步骤和所需的工具并不明显,LLM需通过推理选择合适的工具并规划操作。
  • 实际部署的工具:GTA提供一个评估平台,涵盖感知、操作、逻辑和创造力四大类别的14种工具,以评估代理在真实任务中的执行能力。
  • 多模态输入输出:GTA引入了空间场景、网页截图、表格、代码片段、手写或打印材料等多模态输入,要求模型处理丰富的上下文信息并提供文本或图像输出。
  • 细致评估:GTA设计了细致的评估指标,包括指令遵循准确率(InstAcc)、工具选择准确率(ToolAcc)、参数预测准确率(ArgAcc)、答案总结准确率(SummAcc)以及最终答案准确率(AnsAcc)。
  • 模型评测:GTA支持逐步模式(step-by-step mode)和端到端模式(end-to-end mode)下对语言模型的评估,全面考察模型的工具使用能力。

GTA的技术原理

  • 数据集构建:GTA的数据集构建分为问题构建和工具链构建两个部分。问题由专家设计示例和标注文档,标注人员根据示例设计更多的问题。工具链由标注人员手动调用已部署的工具构建,确保每个问题都能通过提供的工具得到解决。
  • 工具调用:GTA采用ReAct风格的提示模板,指引LLM以特定格式调用工具,并处理工具返回的结果。该模板支持LLM进行推理与规划,决定何时以及如何调用工具。
  • 多模态处理:GTA要求LLM能够理解和处理多模态输入,包括图像和文本,体现模型的跨模态理解和推理能力。
  • 细致评估指标:GTA设计的评估指标覆盖工具调用的整个过程,从LLM的工具调用到执行结果,提供对模型性能的全面评估。
  • 模型比较:通过比较不同模型在GTA上的表现,揭示现有模型在处理真实世界问题时的工具使用瓶颈,为未来的通用工具智能体改进提供方向。

GTA的项目地址

GTA的应用场景

  • 智能助理开发:GTA可用于评估和训练智能助理,使其更好地理解和执行复杂的用户请求,涉及多步骤的操作和多种工具的调用。
  • 多模态交互:在处理图像、文本及其他多媒体内容的场景中,GTA帮助模型学习如何结合多种输入类型来解决问题。
  • 自动化客户服务:GTA可用于开发自动解决客户问题的系统,该系统需调用不同的工具和资源以提供准确的答案和解决方案。
  • 教育和培训:GTA作为教育工具,帮助学生理解如何设计和实现复杂任务,这些任务需要多步骤推理和工具使用。
  • 研究与开发:研究人员利用GTA测试和比较不同的LLMs,探索工具使用能力的新方法,推动AI技术的不断进步。

常见问题

  • GTA的目标是什么?:GTA旨在评估大型语言模型在现实场景中调用工具的能力,促进智能体在多模态环境下的应用。
  • GTA的评估指标有哪些?:GTA的评估指标包括指令遵循准确率、工具选择准确率、参数预测准确率、答案总结准确率和最终答案准确率。
  • GTA适合哪些应用场景?:GTA可用于智能助理开发、自动化客户服务、多模态交互、教育培训以及研究开发等多个领域。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...