MoE与Mamba强强联合，将状态空间模型扩展到数百亿参数

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：MoE与Mamba强强联合，将状态空间模型扩展到数百亿参数
关键字：模型,报告,专家,架构,数量
文章来源：机器之心
内容字数：7052字

内容摘要：

机器之心报道
编辑：Panda性能与 Mamba 一样，但所需训练步骤数却少 2.2 倍。状态空间模型（SSM）是近来一种备受关注的 Transformer 替代技术，其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。而基于选择性 SSM 和硬件感知型设计的 Mamba 更是表现出色，成为了基于注意力的 Transformer 架构的一大有力替代架构。
近期也有一些研究者在探索将 SSM 和 Mamba 与其它方法组合起来创造更强大的架构，比如机器之心曾报告过《Mamba 可以替代 Transformer，但它们也能组合起来使用》。
近日，波兰一个研究团队发现，如果将 SSM 与混合专家系统（MoE/Mixture of Experts）组合起来，可望让 SSM 实现大规模扩展。MoE 是目前常用于扩展 Transformer 的技术，比如近期的 Mixtral 模型就使用了这一技术，参阅机器之心文章。
这个波兰研究团队给出的研究成果是 MoE-Mamba，即将 Mamba 和混合专家层组合起来的模型。论文地址：https://arxiv.org/pdf/2401.

原文链接：MoE与Mamba强强联合，将状态空间模型扩展到数百亿参数