抵挡AI的最后一个基准!CAIS发布50万美元悬赏令:汇集人类顶尖专家,专攻高难度问题

AIGC动态1个月前发布 新智元
6 0 0

抵挡AI的最后一个基准!CAIS发布50万美元悬赏令:汇集人类顶尖专家,专攻高难度问题

AIGC动态欢迎阅读

原标题:抵挡AI的最后一个基准!CAIS发布50万美元悬赏令:汇集人类顶尖专家,专攻高难度问题
关键字:解读,问题,报告,模型,基准
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:LRS
【新智元导读】随着AI模型的水平不断提高,现有的基准测试也被逐一攻破。CAIS和Scale AI共同发起了属于人类的最后一搏,悬赏50万美元,把最高难度、只有最顶尖的人才能回答出的问题收集起来作为基准,是否能挡住AI模型的攻势?OpenAI最近发布的o1-preview可以说是再次震撼了整个大模型届,在各个主流高难度基准测试中都展现出了惊人的性能,甚至能在博士级别的科学问答环节上超越人类专家。
不过,o1模型的超强实力也带来了一个问题:现有的基准测试已经无法评估模型的能力了,需要新的、更难的基准。
最近,Scale AI与CAIS(人工智能安全中心,Center for AI Safety)计划合作推出Humanity’s Last Exam (人类的最终测验),号称将要构建大型语言模型届最难的开源基准;此前CAIS发布的MMLU目前仍然是Huggingface社区中下载次数最多的基准数据集。
两个机构总共筹集了50万来收集「有史以来最难、最广泛的」问题,面向所有人类专家来收集那些尖锐的问题,以将人工智能模型推向极限:前50个被选中的问题,每题将获得5000美


原文链接:抵挡AI的最后一个基准!CAIS发布50万美元悬赏令:汇集人类顶尖专家,专攻高难度问题

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...