Mamba写代码真的超越Transformer!原始论文入选顶流新会议

AIGC动态2个月前发布 量子位
6 0 0

Mamba写代码真的超越Transformer!原始论文入选顶流新会议

AIGC动态欢迎阅读

原标题:Mamba写代码真的超越Transformer!原始论文入选顶流新会议
关键字:架构,模型,基准,数学模型,量子
文章来源:量子位
内容字数:0字

内容摘要:


西风 发自 凹非寺量子位 | 公众号 QbitAI“欧洲OpenAI”和“Transformer挑战者”强强联合了!
Mistral AI刚刚推出了其第一个基于Mamba2架构的开源模型——Codestral Mamba(7B),专搞代码生成。
与Transformer架构不同,Mamba架构可进行“线性时间推理”,理论上能够支持无限长度输入。
Mistral AI:这也就是为啥我们用Mamba架构推出的代码推理模型抗打。
Mistral AI表示已经在最多256k token上下文中测试了Codestral Mamba。
基准测试中,Codestral Mamba总体性能超越CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B、CodeLlama 34B。
有网友表示,这一波是Mistral AI要带飞Mamba架构的节奏。
Mamba架构作者之一、CMU助理教授Albert Gu表示:
具有较弱“tokenizations”的不同模态或数据格式(例如代码、byte级建模)会越来越多地从压缩模型(如SSM)中受益。
除了Codestral Ma


原文链接:Mamba写代码真的超越Transformer!原始论文入选顶流新会议

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...