13B模型全方位碾压GPT-4？这背后有什么猫腻

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：13B模型全方位碾压GPT-4？这背后有什么猫腻

文章来源：机器之心

内容字数：5526字

内容摘要：机器之心报道编辑：陈萍你的测试集信息在训练集中泄漏了吗？一个参数量为 13B 的模型竟然打败了顶流 GPT-4？就像下图所展示的，并且为了确保结果的有效性，这项测试还遵循了 OpenAI 的数据去污方法，更关键的是没有发现数据污染的证据。如果你细细查看图中的模型，发现只要带有「rephraser」这个单词，模型性能都比较高。这背后到底有何猫腻？原来是数据污染了，即测试集信息在训练集中遭到泄漏，而且这种污染还不易被检测到。尽管这一问题非常关键，但理解和检测污染仍然是一个开放且具有挑战性的难题。现阶段，去污最常用的方法是 n-gram 重叠和嵌入相似性搜索：N-gram 重叠依赖于字符串匹配来检测污染，是 GPT-4、PaLM 和 Llama-2 等模型常用方法；嵌入相似性搜索使用预训练模型（例如 BERT）的嵌入来查找相似且可能受到污染的示例。然而，来自 UC 伯克利、上海交通大学的研究表明…

原文链接：点此阅读原文：13B模型全方位碾压GPT-4？这背后有什么猫腻