AgentCLUE-ICabin

AgentCLUE-ICabin – 汽车智能座舱的AI Agent评测基准

AgentCLUE-ICabin：专为汽车智能座舱打造的AI智能体评测基准，聚焦大语言模型在复杂场景下的工具调用能力，通过12大用车场景、多轮交互及客观0/1评估机制，全面提升智能座舱用户体验。

AgentCLUE-ICabin：您的智能座舱AI助手评测专家

AgentCLUE-ICabin 是一款为汽车智能座舱量身定制的AI智能体评测基准。它专注于评估大语言模型在真实用车场景下的工具调用能力，旨在推动智能座舱技术的进步。该基准以12个高度贴合国内用户实际需求的常见用车场景为基础，涵盖了从日常通勤到长途自驾的广泛出行需求。通过精心设计的1至10轮多轮交互对话，并确保每轮对话都至少调用一个工具，AgentCLUE-ICabin 能够全面而深入地考察AI模型在复杂多变环境中的交互表现。

在评估机制上，AgentCLUE-ICabin 采用了严谨的0/1客观评判标准。通过精准比对模型调用的函数与预期的一致性，以及函数执行后系统状态的正确变化，来确保测评结果的公正与可靠。其工具集被巧妙地划分为出行、车控、娱乐、安全和通用五大类别，总计包含超过70项功能，几乎囊括了智能座舱的所有核心能力。整个测评流程经过精心规划，包括场景的深度挖掘、工具集的构建、高质量对话数据的生成以及最终的答案校验，确保了测评的科学性和实操性。

AgentCLUE-ICabin 的核心亮点

多元化场景构建：基于12个核心用车场景，如日常通勤、长途自驾、亲子出行等，构建出极具代表性的测评集，全面映射用户在各种情境下的实际用车需求。
深度多轮交互模拟：采用1至10轮的连续对话设计，每一步都要求调用至少一个工具，精确模拟用户在智能座舱中的真实交互过程，深入考察模型的连续理解和执行能力。
全面的工具调用覆盖：将智能座舱的工具功能细分为出行、车控、娱乐、安全、通用五大维度，涵盖70余种具体功能，确保对模型工具调用能力的全面评估。
公正严谨的评估体系：运用0/1的客观评估方式，通过比对模型调用的函数准确性及执行后的系统状态变化，实现公平、无偏见的测评结果。
高精度数据生成与校验：借助先进的大模型生成多轮交互式对话数据，并经过专业人工校验和优化，形成精准的汽车智能座舱问答对，为模型训练和评估提供坚实基础。

AgentCLUE-ICabin 的技术基石

场景驱动的交互设计
- 场景精选：以12个典型用车场景（如日常通勤、长途自驾、家庭出行等）为蓝本，精心构建测评集，力求最大程度贴合用户在不同场景下的实际需求。
- 多轮对话设计：精心设计1至10轮的连续对话流程，要求模型在每一轮中至少调用一个工具，以此来模拟真实用户在智能座舱中的连续交互体验，从而评估模型在复杂对话环境下的表现。
精细化工具分类：将智能座舱内的各类工具被细致地划分为出行、车控、娱乐、安全以及通用五大类别，共计涵盖了70多项具体功能。例如：
- 出行服务工具：包括但不限于导航服务、实时路况查询、附近加油站搜索等。
- 智能车控工具：涵盖空调温度调节、车窗开关控制、座椅位置调整等。
- 娱乐服务工具：支持音乐播放、广播收听、视频观看等功能。
- 安全服务工具：涉及胎压监测、哨兵模式启用、儿童锁设置等。
- 通用工具：如座椅调节、方向盘角度调整、车内灯光控制等。
高效的工具调用机制：要求模型能够准确地根据用户指令调用相应的工具，并确保调用的准确性以及工具执行结果的正确性。
客观公正的评估体系
- 0/1评分标准：通过比对模型调用的函数与预设答案的一致性，以及函数执行后系统状态的变化情况，进行精确的对错判断。这种方法最大程度地保证了评估结果的客观性和公正性。
- 多轮反馈与纠错机制：在每轮对话中，模型最多拥有三次尝试机会。系统会根据模型的调用结果提供相应的错误反馈，模型可依据反馈进行调整和优化。
智能对话数据生成：利用强大的大模型技术，生成大量模拟真实用户与智能座舱交互的多轮对话数据。
人工校验与优化：生成的数据及答案会经过专业人工的严谨校验和细致优化，以确保数据的准确性、实用性，并形成高质量的汽车智能座舱问答对。
系统状态追踪与管理：在多轮交互过程中，系统会实时跟踪和管理座舱状态的变化。模型需要充分考虑每一步操作对系统状态的影响，以确保后续操作的准确无误。
状态比对验证：在评估阶段，系统会将模型操作后的实际系统状态与预期的目标状态进行精确比对，从而验证模型不仅能够正确调用工具，还能准确地改变系统状态。

AgentCLUE-ICabin 的独特优势

场景覆盖广度：囊括12个典型用车场景，如日常通勤、长途自驾、家庭出行等，全面贴合国内用户的实际用车需求，确保测评结果的实用性和参考价值。
交互深度与复杂性：通过设计1至10轮的深度多轮交互对话，每轮至少调用一个工具，有力地模拟了真实用车场景下的连续对话需求，从而深入考察模型在复杂交互情境下的表现。
评估的客观公正性：采用0/1的客观评估机制，通过比对函数调用的一致性和系统状态的变化来判断对错，有效避免了主观评分带来的偏差。
工具集丰富性：将智能座舱工具细分为出行、车控、娱乐、安全、通用五大类别，共计超过70项具体功能，为模型提供了极其丰富的调用选项，确保了评估的全面性。
数据的高精度与可靠性：利用大模型生成多轮交互对话数据，并经过专业人工校验优化，形成精准的问答对，保证了测评数据的质量和准确性，为模型训练和评估提供了可靠依据。