大模型“考生”数学全不及格！首个AI高考全卷评测结果出分

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：大模型“考生”数学全不及格！首个AI高考全卷评测结果出分
关键字：模型,教师,人工智能,能力,考生
文章来源：算法邦
内容字数：0字

内容摘要：

直播预告 | 6月25日晚7点，「智猩猩机器人新青年讲座」第9讲正式开讲，UMass Amherst在读博士周沁泓将直播讲解《在具身智能模拟器中针对动态灾害进行具身决策》，欢迎扫名~高考覆盖各类学科及题型，同时因其开考前的“绝密性”，被视作中国最具权威的考试之一，成为评估考生综合能力的“试金石”。这一面向人类设计的高难度综合，目前普遍被研究者用于考察大模型的智能水平。
2024年全国高考甫一结束，司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷，参与评测的所有开源模型，开源时间均早于高考，确保评测 “闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。
首个大模型高考全卷评测结果显示，Qwen2-72B、GPT-4o及书生·浦语2.0文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲，得分率均超过70%。大部分模型“考生”语文、英语科目表现良好，但在数学方面还有很大的提升空间。其中，InternLM2-20B-WQX取得了数学单科的最高分，超越包括GPT-4o在内

原文链接：大模型“考生”数学全不及格！首个AI高考全卷评测结果出分