NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测
关键字：工具,模型,问题,场景,准确率
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本篇论文已被 NeurIPS 2024 Dataset & Benchmark Track 接收，作者来自上海交通大学 IWIN 计算智能团队和上海人工智能实验室。其中，第一作者王骥泽是上海交通大学自动化系一年级博士生，研究方向涉及大模型智能体、自然语言处理。
利用语言模型调用工具，是实现通用目标智能体（general-purpose agents）的重要途径，对语言模型的工具调用能力提出了挑战。然而，现有的工具评测和真实世界场景存在很大差距，局限性主要体现在以下几个方面：
评估问题通常是 AI 生成的，形式固定；
逻辑链简单，不涉及复杂多步推理；
输入是纯文本形式，模态单一；
没有部署真实可执行的工具，无法端到端评测。
为了突破这些局限，来自上海交通大学与上

原文链接：NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测