终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名

终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名

AIGC动态欢迎阅读

原标题:终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名
关键字:模型,数据,研究者,基准,问题
文章来源:机器之心
内容字数:9050字

内容摘要:


机器之心报道
编辑:佳琪、蛋酱当前最火的大模型,竟然三分之二都存在过拟合问题?
刚刚出炉的一项研究,让领域内的许多研究者有点意外。提高大型语言模型的推理能力是当前研究的最重要方向之一,而在这类任务中,近期发布的很多小模型看起来表现不错,比如微软 Phi-3、Mistral 8x22B 等等。
但随后,研究者们指出当前大模型研究领域存在一个关键问题:很多研究未能正确地对现有 LLM 的能力进行基准测试。这是因为目前的大多数研究都采用 GSM8k、MATH、MBPP、HumanEval、SWEBench 等测试集作为基准。由于模型是基于从互联网抓取的大量数据集进行训练的,训练数据集可能无意中包含了与基准测试中的问题高度相似的样本。
这种污染可能导致模型的推理能力被错误评估 —— 它们可能仅仅是在训练过程中蒙到题了,正好背出了正确答案。
刚刚,Scale AI 的一篇论文对当前最热门的大模型进行了深度调查,包括 OpenAIGPT-4、Gemini、Claude、Mistral、Llama、Phi、Abdin 等系列下参数量不同的模型。
测试结果证实了一个广泛的疑虑:许多模型受到了基准


原文链接:终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...