大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用 | ACL 2024

AIGC动态3个月前发布 新智元
7 0 0

大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用 | ACL 2024

AIGC动态欢迎阅读

原标题:大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用 | ACL 2024
关键字:模型,数据,方法,知识,高效
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:LRS
【新智元导读】当前大语言模型(LLM)的评估方法受到数据污染问题的影响,导致评估结果被高估,无法准确反映模型的真实能力。北京大学等提出的KIEval框架,通过知识基础的交互式评估,克服了数据污染的影响,更全面地评估了模型在知识理解和应用方面的能力。当人工智能领域被GPT-4、Claude 3等大语言模型的惊人表现所震撼时,一个关键问题悄然浮现:我们是否真的客观评估了这些模型的能力?事实上,当前大模型的评估正面临着数据污染的阴霾。
数据污染,即模型在训练过程中接触到评测基准的测试集数据,导致其在自动评测基准的表现被高估。这一问题在业界尚未得到充分重视。许多大模型的训练数据来源复杂,难以完全避免测试数据以及答案的泄露。
一些模型甚至直接在测试集上进行训练,以获得更高的评估分数。这不仅人为地夸大了模型的性能,也可能误导相关研究的方向。
面对数据污染问题,尽管已有工作提出基于同分布数据困惑度平均差值[1]以及模型输出的log-likelihood分布特征[2]检测大模型数据污染情况的存在性,但这些方法应用场景和实际效果受限,特别是难以检测大模型在SFT阶段的数据泄露问


原文链接:大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用 | ACL 2024

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...