DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升

AIGC动态10个月前发布 机器之心
5 0 0

DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升

AIGC动态欢迎阅读

原标题:DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升
关键字:华为,模型,状态,报告,信息
文章来源:机器之心
内容字数:8580字

内容摘要:


机器之心专栏
机器之心编辑部近期,来自华为诺亚方舟实验室的研究者提出了 DenseSSM,用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中,DenseSSM 保留了对最终输出至关重要的精细信息。DenseSSM 在保持训练并行性和推理效率的同时,通过密集连接实现了性能提升。该方法可广泛应用于各种 SSM 类型,如 Mamba 和 RetNet。随着 ChatGPT 的突破性进展,大型语言模型(LLMs)迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年,人们目睹了 LLaMA、ChatGLM 等模型的诞生,它们基于 Transformer 架构,采用多头自注意力(MHSA)机制来捕捉词汇间的复杂关系,尽管 MHSA 模块在模型中扮演着核心角色,但其在推理过程中对计算和内存资源的需求却极为庞大。具体来说,对于长度为 N 的输入句子,自注意力的计算复杂度高达 O (N^2),而内存占用则达到了 O (N^2D),其中 D 是模型的维度。
为了应对这一挑战,最新的研究致力于简化 Transformer 架构,以降低其在


原文链接:DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...