MIT斯坦福Transformer最新研究：过度训练让中度模型「涌现」结构泛化能力

AIGC动态2年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：MIT斯坦福Transformer最新研究：过度训练让中度模型「涌现」结构泛化能力

文章来源：新智元

内容字数：7150字

内容摘要：新智元报道编辑：润【新智元导读】过度训练让中度模型出现了结构泛化能力。对于人类来说，句子是分层的。句子的层次结构对于表达和理解都相当重要。但是在自然语言处理中，之前的研究认为，在泛化到新的结构输入时，以Transformer为代表的神经序列模型似乎很难有效地捕捉到这种句子的层级结构。但是斯坦福和MIT的研究人员在最近的研究中发现。如果对Transformer类的模型进行长时间的训练之后，它能获得这种结构性的泛化能力。研究人员将这种现象称为：结构顿悟（Structural Grokking，SG）Grokking这个词是一个作家在书中造出来的词，中文大概翻译成「顿悟」。微博网友木遥老师把这个词解释为：一个高度复杂的神经网络在漫长的训练期内一直只能记住训练样本的信息，几乎没有泛化能力，但到了某一刻，它的泛化水平忽然跳了出来，而且非常完美。可以想象成一个神经网络经历了一个「aha moment」…

原文链接：点此阅读原文：MIT斯坦福Transformer最新研究：过度训练让中度模型「涌现」结构泛化能力