在噪声环境中依然保持强劲表现
原标题:大模型训练或无需“纯净数据”!北大团队新研究:随机噪声影响有限,新方法让模型更抗噪
文章来源:量子位
内容字数:4549字
北大团队:大模型训练并非必须依赖“纯净数据”
传统的大语言模型训练依赖于“纯净数据”,即经过仔细筛选、语确且逻辑严密的文本。然而,北京大学的研究团队近期的一项研究挑战了这一观点,认为适量的“噪声数据”并不会显著影响模型性能,甚至可能带来意想不到的益处。
核心发现:噪声数据对大模型训练的影响
研究团队通过在训练数据中添加高达20%的随机乱码,训练了多个GPT-2模型。结果显示,即使面对如此高比例的噪声数据,模型的Next-token Prediction (NTP) loss仅上升约1%。更令人惊讶的是,在一些下游任务测试中,含噪模型甚至表现出更低的NTP loss。这表明,传统的“纯净数据”假设可能过于严格。
理论解释:随机噪声与模型性能的复杂关系
研究团队从理论角度分析了这一现象。他们将NTP过程建模为一个分类任务,并证明了在特定条件下,随机噪声的存在不会改变NTP loss的全局最小值。该理论解释了为什么多语言模型和在充满背景噪音的数据集上训练的音频模型能够成功。他们还通过实验验证了这一理论的正确性,包括使用高斯分布生成的噪声。
解决方法:局部梯度匹配(LGM)损失函数
尽管预训练损失变化微弱,但下游任务性能却可能受到影响。研究团队发现,在高斯噪声上训练的模型,尽管NTP loss更低,但在文本分类下游任务中的准确率却下降。为了解决这个问题,他们提出了一种名为“局部梯度匹配”(LGM)的即插即用解决方案。LGM通过在特征中添加高斯噪声并约束原始/扰动特征的梯度差异,增强分类头的抗噪能力,从而弥补噪声导致的特征偏移。实验结果表明,LGM可以显著提升受噪声影响的模型在下游任务中的性能,甚至在干净模型上也能提升1%-3%的准确率。
启示与展望:数据清洗的新思考
这项研究为大规模预训练提供了新的视角:首先,它表明适度保留随机噪声可以降低数据清洗成本;其次,它为多语言模型的成功提供了理论解释;第三,它提出了一种新的数据增强方法,即可控噪声注入,可以提升模型的泛化能力。然而,研究也存在局限性,例如实验仅基于GPT-2规模模型,未来需要进一步研究超大规模模型的噪声耐受性以及LGM在其他模态中的应用。
总而言之,北大团队的研究挑战了大语言模型训练对“纯净数据”的依赖,为降低数据清洗成本、提升模型泛化能力提供了新的思路和方法。这项研究的成果具有重要的理论意义和实际应用价值。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破