AIGC动态欢迎阅读
原标题:基础架构竞争激烈,LSTM原作者提出指数门控xLSTM,性能直逼Transformer和Mamba
关键字:门控,模型,作者,记忆,向量
文章来源:大数据文摘
内容字数:7512字
内容摘要:
大数据文摘授权转载自将门创投
作者:seven_
经典长短时记忆网络(LSTM)架构最早可以追溯到20世纪90年代,因其独特的常量误差传递(constant error carousel,CEC)和门控(gating)机制而在处理各种时序序列数据任务中展示出了卓越的性能,尤其是在早期的大型语言模型(LLM)中发挥了关键作用。然而,随着Transformer架构的出现,其高度可并行化运行的自注意力机制使得模型可以拓展到更大规模的应用中,导致LSTM的地位逐渐被取代。
近日,LSTM的原作者Sepp Hochreiter带队对LSTM框架进行了全新升级,重点针对LSTM缺乏并行处理能力以及在存储容量和灵活性上的缺陷进行了改进,提出了一种称为xLSTM的全新架构。xLSTM提出了两种新的内存单元设计:一种是使用标量内存和标量更新的sLSTM,它引入了新的记忆混合技术;另一种是mLSTM,它使用矩阵内存并能完全并行计算,采用协方差更新规则。
作者通过实验证明,xLSTM与最先进的Transformer模型和状态空间模型(SSM)相比,显示出了优越的性能和良好的可扩展性。这表明,通过对传统LST
原文链接:基础架构竞争激烈,LSTM原作者提出指数门控xLSTM,性能直逼Transformer和Mamba
联系作者
文章来源:大数据文摘
作者微信:BigDataDigest
作者简介:普及数据思维,传播数据文化
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...