终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名
关键字：模型,数据,研究者,基准,问题
文章来源：机器之心
内容字数：9050字

内容摘要：

机器之心报道
编辑：佳琪、蛋酱当前最火的大模型，竟然三分之二都存在过拟合问题？
刚刚出炉的一项研究，让领域内的许多研究者有点意外。提高大型语言模型的推理能力是当前研究的最重要方向之一，而在这类任务中，近期发布的很多小模型看起来表现不错，比如微软 Phi-3、Mistral 8x22B 等等。
但随后，研究者们指出当前大模型研究领域存在一个关键问题：很多研究未能正确地对现有 LLM 的能力进行基准测试。这是因为目前的大多数研究都采用 GSM8k、MATH、MBPP、HumanEval、SWEBench 等测试集作为基准。由于模型是基于从互联网抓取的大量数据集进行训练的，训练数据集可能无意中包含了与基准测试中的问题高度相似的样本。
这种污染可能导致模型的推理能力被错误评估 —— 它们可能仅仅是在训练过程中蒙到题了，正好背出了正确答案。
刚刚，Scale AI 的一篇论文对当前最热门的大模型进行了深度调查，包括 OpenAI 的 GPT-4、Gemini、Claude、Mistral、Llama、Phi、Abdin 等系列下参数量不同的模型。
测试结果证实了一个广泛的疑虑：许多模型受到了基准

原文链接：终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名