AIGC动态欢迎阅读
原标题:Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
关键字:模型,架构,序列,政策,内存
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:编辑部
【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。
虽然之前Mistral已经发过Mamba架构的Codestral Mamba模型,但仅针对编码;Falcon Mamba则是通用模型,能够处理各种文本生成任务。
它是继Falcon 180B、Falcon 40B和Falcon 2之后TII的第四个开放模型,与Falcon系列之前的型号不同,Falcon Mamba 7B完全采用SSLM架构而不是传统的Transformer架构。
Mamba架构横空出世后,体现出了内存效率方面的显著优势,无需额外的内存需求即可生成大量文本。
如今,SSLM正在逐渐蚕食Transformer架构原本「大一统」的地位。
测评数据显示,Falcon Mamba 7B性能已经超越同尺寸级别的领先模型
原文链接:Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
联系作者
文章来源:新智元
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...