DenseMamba：大模型的DenseNet时刻，Mamba和RetNet精度显著提升

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：DenseMamba：大模型的DenseNet时刻，Mamba和RetNet精度显著提升
关键字：华为,模型,状态,报告,信息
文章来源：机器之心
内容字数：8580字

内容摘要：

机器之心专栏
机器之心编辑部近期，来自华为诺亚方舟实验室的研究者提出了 DenseSSM，用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中，DenseSSM 保留了对最终输出至关重要的精细信息。DenseSSM 在保持训练并行性和推理效率的同时，通过密集连接实现了性能提升。该方法可广泛应用于各种 SSM 类型，如 Mamba 和 RetNet。随着 ChatGPT 的突破性进展，大型语言模型（LLMs）迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年，人们目睹了 LLaMA、ChatGLM 等模型的诞生，它们基于 Transformer 架构，采用多头自注意力（MHSA）机制来捕捉词汇间的复杂关系，尽管 MHSA 模块在模型中扮演着核心角色，但其在推理过程中对计算和内存资源的需求却极为庞大。具体来说，对于长度为 N 的输入句子，自注意力的计算复杂度高达 O (N^2)，而内存占用则达到了 O (N^2D)，其中 D 是模型的维度。
为了应对这一挑战，最新的研究致力于简化 Transformer 架构，以降低其在

原文链接：DenseMamba：大模型的DenseNet时刻，Mamba和RetNet精度显著提升