AIGC动态欢迎阅读
原标题:DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压
关键字:模型,线性,门控,序列,大小
文章来源:新智元
内容字数:10158字
内容摘要:
新智元报道编辑:编辑部
【新智元导读】线性RNN赢了?近日,谷歌DeepMind一口气推出两大新架构,在d基准测试中超越了Transformer。新架构不仅保证了高效的训练和推理速度,并且成功扩展到了14B。Transformer又又又被挑战了!
这次的挑战者来自大名鼎鼎的谷歌DeepMind,并且一口气推出了两种新架构,——Hawk和Griffin。
论文地址:https://arxiv.org/abs/2402.19427
这种将门控线性RNN与局部注意力混合在一起的模型新架构的表现相当亮眼。
首先,同为线性RNN架构的Griffin,凭借着1/2的训练数据,在所有评测中全面优于之前大火的Mamba。
更重要的是,Griffin将模型成功扩展到了14B,做到了Mamba想做却没能做的事。
其次,面对基于Transformer架构的模型,Griffin则凭借着1/6的训练数据,打平甚至超越了同等参数量的Llama 2!
同时,模型能够利用很长的上下文来改进其预测,表明线性RNN的外推能力可以远远超出它们训练的序列长度。
此外,团队还证明了这种组合构架保留了Transformer在合
原文链接:DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。