大模型性能掺水严重？北大交出答卷：交互评估+动态出题，死记硬背也没用 | ACL 2024

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：大模型性能掺水严重？北大交出答卷：交互评估+动态出题，死记硬背也没用 | ACL 2024
关键字：模型,数据,方法,知识,高效
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRS
【新智元导读】当前大语言模型（LLM）的评估方法受到数据污染问题的影响，导致评估结果被高估，无法准确反映模型的真实能力。北京大学等提出的KIEval框架，通过知识基础的交互式评估，克服了数据污染的影响，更全面地评估了模型在知识理解和应用方面的能力。当人工智能领域被GPT-4、Claude 3等大语言模型的惊人表现所震撼时，一个关键问题悄然浮现：我们是否真的客观评估了这些模型的能力？事实上，当前大模型的评估正面临着数据污染的阴霾。
数据污染，即模型在训练过程中接触到评测基准的测试集数据，导致其在自动评测基准的表现被高估。这一问题在业界尚未得到充分重视。许多大模型的训练数据来源复杂，难以完全避免测试数据以及答案的泄露。
一些模型甚至直接在测试集上进行训练，以获得更高的评估分数。这不仅人为地夸大了模型的性能，也可能误导相关研究的方向。
面对数据污染问题，尽管已有工作提出基于同分布数据困惑度平均差值[1]以及模型输出的log-likelihood分布特征[2]检测大模型数据污染情况的存在性，但这些方法应用场景和实际效果受限，特别是难以检测大模型在SFT阶段的数据泄露问

原文链接：大模型性能掺水严重？北大交出答卷：交互评估+动态出题，死记硬背也没用 | ACL 2024