Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级

AIGC动态欢迎阅读

原标题：Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级
关键字：研究者,专家,模型,参数,注意力
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：杜伟、蛋酱7 年前，谷歌在论文《Attention is All You Need》中提出了 Transformer。就在 Transformer 提出的第二年，谷歌又发布了 Universal Transformer（UT）。它的核心特征是通过跨层共享参数来实现深度循环，从而重新引入了 RNN 具有的循环表达能力。层共享使得 UT 在逻辑推理任务等组合问题上的表现优于 Transformer，同时还在小规模语言建模和翻译任务上得到改进。
UT 已被证明具有更好的组合泛化特性，能够在无监督的情况下解构结构化问题并泛化到更长的序列。因此与 Transformer 相比，UT 是一种具有卓越泛化特性的通用性更强的架构。
但 UT 的计算效率远低于标准 Transformer，不适合当前语言建模等以参数为王的任务。那么，我们能不能开发出计算效率更高的 UT 模型，并这类任务上实现比标准 Transformer 更具竞争力的性能呢？
近日，包括 LSTM 之父 Jürgen Schmidhuber、斯坦福大学教授 Christopher Manning 等在内的研究者从全新

原文链接：Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级