我们还需要Transformer中的注意力吗？

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：我们还需要Transformer中的注意力吗？
关键字：模型,架构,注意力,矩阵,卷积
文章来源：机器之心
内容字数：15431字

内容摘要：

选自interconnects
作者：Nathan Lambert
机器之心编译
机器之心编辑部状态空间模型正在兴起，注意力是否已到尽头？最近几周，AI 社区有一个热门话题：用无注意力架构来实现语言建模。简要来说，就是机器学习社区有一个长期研究方向终于取得了实质性的进展，催生出 Mamba 两个强大的新模型：Mamba 和 StripedHyena。它们在很多方面都能比肩人们熟知的强大模型，如 Llama 2 和 Mistral 7B。这个研究方向就是无注意力架构，现在也正有越来越多的研究者和开发者开始更严肃地看待它。
近日，机器学习科学家 Nathan Lambert 发布了一篇题为《状态空间 LLM：我们需要注意力吗？》的文章，详细介绍了 2023 年无注意力模型的发展情况。他还表示：2024 年你将会有不同的语言模型架构可选。需要说明，这篇文章包含不少数学内容，但深度理解它们是值得的。鉴于这篇文章较长，所以这里先列出分节目录，以方便读者索引：
引言：我们为什么可能并不想使用注意力以及什么是循环神经网络。
Mamba 模型：这种新的状态空间模型能为未来多种类别的语言模型提供功能和硬

原文链接：我们还需要Transformer中的注意力吗？