One-Eval

One-Eval – 北大开源的自动化大模型评测框架

One-Eval：北京大学 OpenDCAI 团队倾力打造的智能评测新范式

在飞速发展的大模型浪潮中，如何高效、准确地评估模型性能，已成为研究者和开发者面临的关键挑战。北京大学 OpenDCAI 团队应运而生，推出了一款名为 One-Eval 的性开源框架。这款框架不仅革新了评测的流程，更将大模型评测的门槛大幅降低，让“自然语言驱动评测”成为现实。

One-Eval 究竟有何“能耐”？

One-Eval 并非一款简单的评测工具，而是一个集成了自动化 Agent 的强大评测体系。其核心亮点在于“NL2Eval”——即“自然语言转评测”能力。用户只需用通俗易懂的自然语言描述评测目标，One-Eval 便能像一位经验丰富的评测专家，自动完成从基准数据的智能推荐、数据下载，到模型推理的执行、各项指标的匹配与评分，乃至生成多维度、可视化的评测报告。整个过程实现端到端的自动化，真正做到了“从需求到报告，一键生成”。

One-Eval 的核心功能解析

智能自然语言解析：用户输入的评测意图，将由 Agent 精准捕捉，并转化为具体的评测路径规划。
丰富的基准资源库：内置 GSM8K、MATH、MMLU、C-Eval、IFEval、HumanEval 等业界主流评测基准的元信息，方便用户快速查找和选用。
全流程自动化执行：无缝衔接数据获取、模型推理、结果评分、统计分析直至报告输出，省去繁琐的手动操作。
人性化的交互干预：在评测的关键环节，用户可以随时介入，进行审查、编辑甚至重新运行，确保评测过程的可控性。
统一的数据接口：借助 DataFlow 引擎，不同来源、不同格式的数据集都能被标准化处理，实现无缝接入。

One-Eval 的技术基石

One-Eval 的强大能力离不开其精巧的技术架构：

Agent 式工作流编排：基于 LangGraph 构建的 Agent 图，将复杂的评测任务分解为“自然语言到基准的转化”、“基准解析与准备”、“指标计算与报告生成”等清晰的阶段性工作流。
DataFlow 算子赋能数据处理：底层 DataFlow 引擎负责数据的准备与流式计算，确保了异构数据集的统一接入和高效转换。
双源数据解析策略：优先利用本地预置配置，若信息不全，则自动连接 HuggingFace，搜索、下载并结构化所需数据集的元信息。
可追溯的状态管理：每一次执行的状态都会被持久化记录，支持断点续跑、回溯分析以及对失败案例的深入探究。

如何轻松上手 One-Eval？

使用 One-Eval 的过程简单直观：

环境搭建：通过 Conda 或 uv 创建环境，并执行 pip install -e . 完成依赖安装。
启动服务：首先运行 uvicorn one_eval.server.app:app --host 0.0.0.0 --port 8000 启动后端 FastAPI 服务。
开启前端：切换至 one-eval-web 目录，执行 npm install && npm run dev，即可通过 localhost:5173 访问用户界面。
配置关键信息：在 Web 界面中，设置您的 API Key、目标大模型以及 HuggingFace Token，保存后便可进入互动评测模式。
发起评测：在输入框中用自然语言描述您的评测需求，例如“评估模型在数学推理任务上的性能”，One-Eval 将自动为您完成后续所有步骤。
开发者便捷模式：对于有编程需求的开发者，可以直接通过命令行 python -m one_eval.graph.workflow_all "评测目标" 来触发完整的评测工作流。

One-Eval 的关键亮点与使用要求

开发者团队：由北京大学 OpenDCAI 实验室精心研发。
开源精神：完全开源，代码托管于 GitHub，欢迎社区贡献。
技术栈组成：后端基于 Python 3.11 和 FastAPI，前端采用 React + Vite，核心工作流依赖 LangGraph，数据处理则由 DataFlow 算子系统支撑。
模型兼容性：支持任何提供 OpenAI 标准 API 接口的服务，包括 OpenRouter、硅基流动、火山引擎以及自部署的 vLLM 等。
硬件配置要求：本地运行对硬件要求不高，实际的计算资源和 Token 消耗取决于用户选择的外部模型 API。
使用前置条件：使用前需要配置有效的 API Key 以调用模型，同时需要 HuggingFace Token 以便下载和加载部分评测数据集。

One-Eval 的核心竞争力

告别脚本，零门槛评测：彻底摆脱手动下载数据和编写配置的繁琐，自然语言即可启动全流程自动化评测。
灵活可扩展的架构：基于 DataFlow 算子与 LangGraph 的设计，轻松支持接入私有数据集和自定义评估指标。
人机协同，智能可控：关键环节支持人工介入审查和调整，在自动化和可控性之间取得完美平衡。
深度洞察的多维度报告：自动生成包含分数统计、模型排名、失败案例分析及可执行建议的详尽报告。
全程可追溯的评测流程：每一次评测的每一步操作、状态变化和数据流转都清晰可见，便于审计和复现。

One-Eval 项目资源

GitHub 仓库：https://github.com/OpenDCAI/One-Eval
技术论文：https://arxiv.org/pdf/2603.09821

与同类竞品深度对比

对比维度	One-Eval	OpenCompass	EleutherAI LM Harness
开发团队	北京大学 OpenDCAI 实验室	上海人工智能实验室	EleutherAI 社区
核心定位	Agent 驱动，自然语言驱动的自动化评测	中文社区主导，配置驱动的评测框架	海外资深，脚本化评测工具
使用方式	自然语言描述 + Web UI 交互 + 代码调用	YAML 配置文件 + 命令行脚本	Python 脚本 + CLI 命令行
上手门槛	低，自然语言即可发起评测	中等，需要编写配置文件	中等，需要编写代码与脚本
人机协同	支持，可在关键节点进行审查和干预	不支持，纯自动化执行	不支持，纯自动化执行
前端界面	内置 React + Vite 可视化工作流	有结果展示页面，无交互式前端	无前端界面
中文生态	原生支持 C-Eval、CMMLU 等	极强，中文基准覆盖全面	相对较弱，需自行配置中文数据集
异构数据支持	DataFlow 算子系统统一接入	支持度良好	支持度良好，但配置复杂度较高
Agent/Sandbox 评测	规划中（未来支持 SWE-bench 等）	部分支持	不支持
适用场景	快速模型选型、工程验收、学术实验	深度定制化评测、大规模批量测试	英文基准研究、代码级灵活定制