AIGC动态欢迎阅读
原标题:抵挡AI的最后一个基准!CAIS发布50万美元悬赏令:汇集人类顶尖专家,专攻高难度问题
关键字:解读,问题,报告,模型,基准
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:LRS
【新智元导读】随着AI模型的水平不断提高,现有的基准测试也被逐一攻破。CAIS和Scale AI共同发起了属于人类的最后一搏,悬赏50万美元,把最高难度、只有最顶尖的人才能回答出的问题收集起来作为基准,是否能挡住AI模型的攻势?OpenAI最近发布的o1-preview可以说是再次震撼了整个大模型届,在各个主流高难度基准测试中都展现出了惊人的性能,甚至能在博士级别的科学问答环节上超越人类专家。
不过,o1模型的超强实力也带来了一个问题:现有的基准测试已经无法评估模型的能力了,需要新的、更难的基准。
最近,Scale AI与CAIS(人工智能安全中心,Center for AI Safety)计划合作推出Humanity’s Last Exam (人类的最终测验),号称将要构建大型语言模型届最难的开源基准;此前CAIS发布的MMLU目前仍然是Huggingface社区中下载次数最多的基准数据集。
两个机构总共筹集了50万来收集「有史以来最难、最广泛的」问题,面向所有人类专家来收集那些尖锐的问题,以将人工智能模型推向极限:前50个被选中的问题,每题将获得5000美
原文链接:抵挡AI的最后一个基准!CAIS发布50万美元悬赏令:汇集人类顶尖专家,专攻高难度问题
联系作者
文章来源:新智元
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...