别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

AIGC动态3年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

关键字：报告,模型,基准,数据,测试

文章来源：量子位

内容字数：4437字

内容摘要：明敏发自凹非寺量子位 | 公众号 QbitAI“别让大模型被基准评估给坑了”。这是一项最新研究的题目，来自人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校。研究发现，基准测试中相关数据意外被用于模型训练的现象，变得越来越常见了。因为预训练语料中包含很多公开文本资料，而评估基准也建立在这些信息之上，本来这种情况就在所难免。现在随着大模型试图搜集更多公开数据，问题正在加重。要知道，…

原文链接：点此阅读原文：别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻