图灵奖得主Yoshua Bengio新作：Were RNNs All We Needed?

AIGC动态欢迎阅读

原标题：图灵奖得主Yoshua Bengio新作：Were RNNs All We Needed?
关键字：模型,序列,时间,研究者,任务
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：佳琪、蛋酱自从 Transformer 模型问世以来，试图挑战其在自然语言处理地位的挑战者层出不穷。
这次登场的选手，不仅要挑战 Transformer 的地位，还致敬了经典论文的名字。
再看这篇论文的作者列表，图灵奖得主、深度学习三巨头之一的 Yoshua Bengio 赫然在列。论文标题：Were RNNs All We Needed?
论文地址：https://arxiv.org/pdf/2410.01201v1
最近，大家重新对用循环序列模型来解决 Transformer 长上下文的问题产生了兴趣，出现了一大批有关成果，其中 Mamba 的成功引爆了 AI 圈，更是点燃了大家的研究热情。
Bengio 和他的研究团队发现，这些新的序列模型有很多共同点，于是他们重新审视了 LSTM 和 GRU 这两种经典 RNN 模型。
结果发现，精简掉其中的隐藏状态依赖之后，不再需要基于时间反向传播的 LSTM 和 GRU 的表现就能和 Transformer 打个平手。
LSTM 和 GRU 仅能顺序处理信息，并且在训练时依赖反向传播，这使得它们在处理大量数据时速度缓慢，

原文链接：图灵奖得主Yoshua Bengio新作：Were RNNs All We Needed?