抵挡AI的最后一个基准！CAIS发布50万美元悬赏令：汇集人类顶尖专家，专攻高难度问题

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：抵挡AI的最后一个基准！CAIS发布50万美元悬赏令：汇集人类顶尖专家，专攻高难度问题
关键字：解读,问题,报告,模型,基准
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRS
【新智元导读】随着AI模型的水平不断提高，现有的基准测试也被逐一攻破。CAIS和Scale AI共同发起了属于人类的最后一搏，悬赏50万美元，把最高难度、只有最顶尖的人才能回答出的问题收集起来作为基准，是否能挡住AI模型的攻势？OpenAI最近发布的o1-preview可以说是再次震撼了整个大模型届，在各个主流高难度基准测试中都展现出了惊人的性能，甚至能在博士级别的科学问答环节上超越人类专家。
不过，o1模型的超强实力也带来了一个问题：现有的基准测试已经无法评估模型的能力了，需要新的、更难的基准。
最近，Scale AI与CAIS（人工智能安全中心，Center for AI Safety）计划合作推出Humanity’s Last Exam （人类的最终测验），号称将要构建大型语言模型届最难的开源基准；此前CAIS发布的MMLU目前仍然是Huggingface社区中下载次数最多的基准数据集。
两个机构总共筹集了50万来收集「有史以来最难、最广泛的」问题，面向所有人类专家来收集那些尖锐的问题，以将人工智能模型推向极限：前50个被选中的问题，每题将获得5000美

原文链接：抵挡AI的最后一个基准！CAIS发布50万美元悬赏令：汇集人类顶尖专家，专攻高难度问题