DeepMind携Mamba华人作者推Transformer之作！性能暴涨媲美Llama 2，推理能效大幅碾压

AIGC动态2年前 (2024)发布新智元

DeepMind携Mamba华人作者推Transformer革命之作！性能暴涨媲美Llama 2，推理能效大幅碾压

AIGC动态欢迎阅读

原标题：DeepMind携Mamba华人作者推Transformer之作！性能暴涨媲美Llama 2，推理能效大幅碾压
关键字：模型,线性,门控,序列,大小
文章来源：新智元
内容字数：10158字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】线性RNN赢了？近日，谷歌DeepMind一口气推出两大新架构，在d基准测试中超越了Transformer。新架构不仅保证了高效的训练和推理速度，并且成功扩展到了14B。Transformer又又又被挑战了！
这次的挑战者来自大名鼎鼎的谷歌DeepMind，并且一口气推出了两种新架构，——Hawk和Griffin。
论文地址：https://arxiv.org/abs/2402.19427
这种将门控线性RNN与局部注意力混合在一起的模型新架构的表现相当亮眼。
首先，同为线性RNN架构的Griffin，凭借着1/2的训练数据，在所有评测中全面优于之前大火的Mamba。
更重要的是，Griffin将模型成功扩展到了14B，做到了Mamba想做却没能做的事。
其次，面对基于Transformer架构的模型，Griffin则凭借着1/6的训练数据，打平甚至超越了同等参数量的Llama 2！
同时，模型能够利用很长的上下文来改进其预测，表明线性RNN的外推能力可以远远超出它们训练的序列长度。
此外，团队还证明了这种组合构架保留了Transformer在合

原文链接：DeepMind携Mamba华人作者推Transformer之作！性能暴涨媲美Llama 2，推理能效大幅碾压