RNN效率媲美Transformer，谷歌新架构两：同等规模强于Mamba

AIGC动态1年前 (2024)发布机器之心

RNN效率媲美Transformer，谷歌新架构两连发：同等规模强于Mamba

AIGC动态欢迎阅读

原标题：RNN效率媲美Transformer，谷歌新架构两：同等规模强于Mamba
关键字：模型,报告,研究者,序列,基线
文章来源：机器之心
内容字数：8869字

内容摘要：

机器之心报道
机器之心编辑部去年 12 月，新架构 Mamba 引爆了 AI 圈，向屹立不倒的 Transformer 发起了挑战。如今，谷歌 DeepMind「Hawk 」和「Griffin 」的推出为 AI 圈提供了新的选择。这一次，谷歌 DeepMind 在基础模型方面又有了新动作。
我们知道，循环神经网络（RNN）在深度学习和自然语言处理研究的早期发挥了核心作用，并在许多应用中取得了实功，包括谷歌第一个端到端机器翻译系统。不过近年来，深度学习和 NLP 都以 Transformer 架构为主，该架构融合了多层感知器（MLP）和多头注意力（MHA）。
Transformer 已经在实践中实现了比 RNN 更好的性能，并且在利用现代硬件方面也非常高效。基于 Transformer 的大语言模型在从网络收集的海量数据集上进行训练，取得了显著的成功。
纵然取得了很大的成功，但 Transformer 架构仍有不足之处，比如由于全局注意力的二次复杂性，Transformer 很难有效地扩展到长序列。此外，键值（KV）缓存随序列长度线性增长，导致 Transformer 在推理过程中变慢。

原文链接：RNN效率媲美Transformer，谷歌新架构两：同等规模强于Mamba