PaperBench

AI工具1年前 (2025)更新 AI工具集

PaperBench – OpenAI 开源的 AI 智能体评测基准

PaperBench

PaperBench是什么

PaperBench是由OpenAI推出的开源AI智能体评测基准，旨在评估智能体复现顶级学术论文的能力。它要求智能体在理解论文内容、编写代码及执行实验等环节中，展示出理论与实践的综合自动化能力。PaperBench涵盖了8316个评分节点，采用层次化评分标准，通过自动评分系统提升评测效率。评估结果显示，当前主流AI模型在复现任务中的表现尚不及顶尖机器学习专家，表明智能体在长期任务规划和执行方面仍存在不足之处。

PaperBench的主要功能

评估智能体能力：全面考察智能体复现顶级机器学习论文的能力，涵盖理解、编码和实验执行等方面。
自动评分：利用自动评分系统提升评分效率，确保评估准确性并经过基准测试验证。
确保公平性：通过设定规则限制智能体的资源使用，确保评估结果基于其自身能力。
降低参与门槛：提供轻量级评估变体，简化评估流程，从而吸引更多研究者参与其中。
标准化测试环境：在统一的Docker容器中运行智能体，确保测试条件的一致性和可重复性。

PaperBench的技术原理

任务模块：PaperBench的核心在于任务模块，明确规定智能体需要完成的具体任务，包括理解论文的贡献、开发代码库和成功执行实验，全面覆盖理论与实践的各个环节。
评分标准：评分标准采用层次化树形结构，将评分节点细分为8316个任务，确保评分过程深入每一个细节。基于大模型的自动评分系统，依据评分标准自动评估智能体的复现尝试，并与人类专家评分结果进行对比，以验证其准确性。
规则模块：规则模块规定智能体在执行任务时所使用的资源，确保智能体的能力建立在自身理解和实现之上，而非依赖现有代码或资源。
测试环境：每个被测试的智能体在运行Ubuntu 24.04的Docker容器中执行任务，以保证环境的一致性和可重复性。容器可访问单个A10 GPU，并具备联网能力，提供HuggingFace和OpenAI API的密钥，确保智能体能够顺利进行操作。
智能体设置：提供多种智能体设置，如SimpleAgent和IterativeAgent，通过调整系统提示和工具配置，研究不同设置对智能体性能的影响。IterativeAgent要求智能体每次仅执行一步操作，移除提交工具，确保智能体在整个可用时间内持续工作。