非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1
关键字：模型,架构,数据,上下文,基准
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：杜伟、陈陈Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了？自 2023 年 12 月首次推出以来，Mamba 便成为了 Transformer 的强有力竞争对手。
此后，采用 Mamba 架构的模型不断出现，比如 Mistral 发布的首个基于 Mamba 架构的开源大模型 Codestral 7B。
今天，阿布扎比技术创新研究所（TII）发布了一个新的开源 Mamba 模型 ——Falcon Mamba 7B。先来总结一波 Falcon Mamba 7B 的亮点：无需增加内存存储，就可以处理任意长度的序列，并且能够在单个 24GB A10 GPU 上运行。
目前可以在 Hugging Face 上查看并使用 Falcon Mamba 7B，这个仅用因果解码器的模型采用了新颖的 Mamba 状态空间语言模型（State Space Language Model, SSLM）架构来处理各种文本生成任务。
从结果来看，Falcon Mamba 7B 在一些基准上超越同尺寸级别的领先模型，包括 Meta 的

原文链接：非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1