谁能撼动Transformer统治地位?Mamba作者谈LLM未来架构

AIGC动态9个月前发布 机器之心
17 0 0

谁能撼动Transformer统治地位?Mamba作者谈LLM未来架构

AIGC动态欢迎阅读

原标题:谁能撼动Transformer统治地位?Mamba作者谈LLM未来架构
关键字:模型,状态,注意力,架构,机制
文章来源:机器之心
内容字数:16785字

内容摘要:


机器之心编译
机器之心编辑部自 2017 年被提出以来,Transformer 已成为 AI 大模型的主流架构,未来这种情况是一直持续,还是会有新的研究出现,我们不妨先听听身处 AI 圈的研究者是怎么想的。在大模型领域,一直稳站 C 位的 Transformer 最近似乎有被超越的趋势。
这个挑战者就是一项名为「Mamba」的研究,其在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面,无论是预训练还是下游评估,Mamba-3B 模型都优于同等规模的 Transformer 模型,并能与两倍于其规模的 Transformer 模型相媲美。论文一经发表,引起了不小的轰动。惊叹之余,大家发现论文作者只有两位,一位是卡内基梅隆大学机器学习系助理教授 Albert Gu,另一位是 Together.AI 首席科学家、普林斯顿大学计算机科学助理教授(即将上任)Tri Dao。
这项研究的一个重要创新是引入了一个名为「选择性 SSM( selective state space model)」的架构,相比于 Transformer 中的自注意力机制的计算量会随着上下文长度的增


原文链接:谁能撼动Transformer统治地位?Mamba作者谈LLM未来架构

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...