AIGC动态欢迎阅读
原标题:我们还需要Transformer中的注意力吗?
关键字:模型,架构,注意力,矩阵,卷积
文章来源:机器之心
内容字数:15431字
内容摘要:
选自interconnects
作者:Nathan Lambert
机器之心编译
机器之心编辑部状态空间模型正在兴起,注意力是否已到尽头?最近几周,AI 社区有一个热门话题:用无注意力架构来实现语言建模。简要来说,就是机器学习社区有一个长期研究方向终于取得了实质性的进展,催生出 Mamba 两个强大的新模型:Mamba 和 StripedHyena。它们在很多方面都能比肩人们熟知的强大模型,如 Llama 2 和 Mistral 7B。这个研究方向就是无注意力架构,现在也正有越来越多的研究者和开发者开始更严肃地看待它。
近日,机器学习科学家 Nathan Lambert 发布了一篇题为《状态空间 LLM:我们需要注意力吗?》的文章,详细介绍了 2023 年无注意力模型的发展情况。他还表示:2024 年你将会有不同的语言模型架构可选。需要说明,这篇文章包含不少数学内容,但深度理解它们是值得的。鉴于这篇文章较长,所以这里先列出分节目录,以方便读者索引:
引言:我们为什么可能并不想使用注意力以及什么是循环神经网络。
Mamba 模型:这种新的状态空间模型能为未来多种类别的语言模型提供功能和硬
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...