一招分辨刷榜作弊大模型，博士小哥开源AI数学“照妖镜”

AIGC动态3年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：一招分辨刷榜作弊大模型，博士小哥开源AI数学“照妖镜”

关键字：模型,测试,成绩,卷子,数学

文章来源：量子位

内容字数：3949字

内容摘要：梦晨发自凹非寺量子位 | 公众号 QbitAI如今很多大模型都声称擅长数学，谁有真才实学？谁是靠背测试题“作弊”的？有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。很多模型一下子就“现原形”了。先看绿色部分，这些大模型在经典数学测试集GSM8k和全新卷子上取得的成绩差不多，共同组成参照标准。再看红色部分，在GSM8K上的成绩显著高于同参数规模的大模型，一到全新卷子上成绩却明显…

原文链接：点此阅读原文：一招分辨刷榜作弊大模型，博士小哥开源AI数学“照妖镜”