AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Bench：最强模型仅有21%准确率

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Bench：最强模型仅有21%准确率
关键字：报告,任务,智能,基准,研究人员
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRS
【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试，通过270个基于90篇跨学科科学论文的任务，可评估AI智能体在计算可重复性方面的表现，最简单任务的准确率可以达到60%，最难任务准确率仅有21%大模型的能力越来越强，用户在一些重要的任务中也可以依赖大模型，比如说辅助做科研。
不过现有科研辅助相关的基准测试都太简单，跟现实世界的任务差距还是比较大的。
最近，普林斯顿大学的研究人员发布了一个新的基准测试CORE-Bench（Computational Reproducibility Agent Benchmark，计算可重复性智能体基准测试），主要关注模型在处理科研问题中的计算可重复/可复现（computational reproducibility）的问题。论文链接：https://arxiv.org/pdf/2409.11363v1
对其他论文进行重复是科研活动的基础，研究人员需要使用提供的代码和数据来对论文中报告的结果进行复现。
CORE-Bench基于90篇科学论文，包含了270个任务，覆盖了三个学科（计算机科学、社会科学和医学），其任务被划

原文链接：AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Bench：最强模型仅有21%准确率