Transformer竟是无限状态RNN?

Transformer竟是无限状态RNN?

AIGC动态欢迎阅读

原标题:Transformer竟是无限状态RNN?
关键字:状态,策略,报告,模型,递归
文章来源:夕小瑶科技说
内容字数:5501字

内容摘要:


夕小瑶科技说 原创作者 | 付奶茶、python近期,Transformer再度成为学术界的热门话题!
Meta的一项最新研究带来了一个新的发现:在某些情况下,”Transformer实际上可以被视为多状态的RNN(MSRNN)。
自2017年问世以来,Transformer以其在多个自然语言处理任务中的卓越表现迅速成为了这一领域的宠儿,同时也使得原本在文本序列处理中占据主导地位的RNN相形见绌。
Meta的这一发现指出,尽管Transformer在理念上与RNN有所区别,但Transformer实际上可以看作是一种具有无限隐藏状态容量的RNN变体。通过限制处理的标记数量,预训练Transformer可以被转换为有限的MSRNN。此外,论文中提出了一种新的策略“TOVA”,该策略基于注意力分数选择保留哪些标记,相较于现有的缓存压缩技术更为简单。接下来,让我们一起深入探索这篇论文~
论文标题:Transformers are Multi-State RNNs
论文链接:https://arxiv.org/pdf/2401.06104.pdf
为什么说Transformer是MSRNNRN


原文链接:Transformer竟是无限状态RNN?

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...