专治大模型“刷题”！贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：专治大模型“刷题”！贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50
关键字：模型,数据,团队,方式,测试
文章来源：量子位
内容字数：0字

内容摘要：

MR-Ben团队投稿量子位 | 公众号 QbitAI大模型测试能拿高分，实际场景中却表现不佳的问题有解了。
贾佳亚团队联合多家知名高校提出了一种全新的测评方法，让一些模型立马现出了原型。
这下不用担心大模型“刷题”太多，测试集无法体现真实水平了。
这个新的测评数据集叫做MR-Ben，利用的是GSM8K、MMLU等数据集中的现有题目。
只不过，大模型在测试中的身份从“答题学生”变成了“阅卷老师”，任务是要给已有的解答步骤指出错误。
这样一来，模型无法再通过背诵或猜测撞对题目，测试题泄露也无需担心了。
利用MR-Ben，贾佳亚团队评测了GPT4-Turbo、Cluade3.5-Sonnet、GLM4、Qwen2-70B等许多开源和闭源模型。
目前，该数据集涉及的所有代码和数据均已开源。
熟悉的试题，全新的任务目前，大模型测试的主流方向是使用人类的标准化考试——选择题和填空题的方式去进行大模型评测。
这套测试方式的优点是标准明确、指标直观，且量化结果天然具有话题性。
但作者认为，由于现在的大模型普遍采用逐步作答的思维链方式生成最终答案，导致这种方式并不“靠谱”。
预训练模型在预训练时早已见

原文链接：专治大模型“刷题”！贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50