Mamba写代码真的超越Transformer！原始论文入选顶流新会议

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：Mamba写代码真的超越Transformer！原始论文入选顶流新会议
关键字：架构,模型,基准,数学模型,量子
文章来源：量子位
内容字数：0字

内容摘要：

西风发自凹非寺量子位 | 公众号 QbitAI“欧洲OpenAI”和“Transformer挑战者”强强联合了！
Mistral AI刚刚推出了其第一个基于Mamba2架构的开源模型——Codestral Mamba（7B），专搞代码生成。
与Transformer架构不同，Mamba架构可进行“线性时间推理”，理论上能够支持无限长度输入。
Mistral AI：这也就是为啥我们用Mamba架构推出的代码推理模型抗打。
Mistral AI表示已经在最多256k token上下文中测试了Codestral Mamba。
基准测试中，Codestral Mamba总体性能超越CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B、CodeLlama 34B。
有网友表示，这一波是Mistral AI要带飞Mamba架构的节奏。
Mamba架构作者之一、CMU助理教授Albert Gu表示：
具有较弱“tokenizations”的不同模态或数据格式（例如代码、byte级建模）会越来越多地从压缩模型（如SSM）中受益。
除了Codestral Ma

原文链接：Mamba写代码真的超越Transformer！原始论文入选顶流新会议