AIGC动态欢迎阅读
原标题:MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力
文章来源:新智元
内容字数:7150字
内容摘要:新智元报道编辑:润【新智元导读】过度训练让中度模型出现了结构泛化能力。对于人类来说,句子是分层的。句子的层次结构对于表达和理解都相当重要。但是在自然语言处理中,之前的研究认为,在泛化到新的结构输入时,以Transformer为代表的神经序列模型似乎很难有效地捕捉到这种句子的层级结构。但是斯坦福和MIT的研究人员在最近的研究中发现。如果对Transformer类的模型进行长时间的训练之后,它能获得这种结构性的泛化能力。研究人员将这种现象称为:结构顿悟(Structural Grokking,SG)Grokking这个词是一个作家在书中造出来的词,中文大概翻译成「顿悟」。微博网友木遥老师把这个词解释为:一个高度复杂的神经网络在漫长的训练期内一直只能记住训练样本的信息,几乎没有泛化能力,但到了某一刻,它的泛化水平忽然跳了出来,而且非常完美。可以想象成一个神经网络经历了一个「aha moment」…
原文链接:点此阅读原文:MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...