无问芯穹提出混合稀疏注意力方案MoA，加速长文本生成，实现最高8倍吞吐率提升

AIGC动态欢迎阅读

原标题：无问芯穹提出混合稀疏注意力方案MoA，加速长文本生成，实现最高8倍吞吐率提升
关键字：注意力,跨度,模型,长度,上下文
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心发布
机器之心编辑部随着大语言模型在长文本场景下的需求不断涌现，其核心的注意力机制（Attention Mechanism）也获得了非常多的关注。
注意力机制会计算一定跨度内输入文本（令牌，Token）之间的交互，从而实现对上下文的理解。随着应用的发展，高效处理更长输入的需求也随之增长 [1][2]，这带来了计算代价的挑战：注意力高昂的计算成本和不断增长的键值缓存（KV-Cache）代价。稀疏注意力机制可以有效缓解内存和吞吐量的挑战。
然而，现有稀疏注意力通常采用统一的稀疏注意力模式，即对不同的注意力头和输入长度应用相同的稀疏模式。这种统一的方法难以捕捉到大语言模型中多样的注意力模式，导致不同注意力头的不同的精度 – 代价权衡被忽略。
最近，来自清华大学、无问芯穹和上海交通大学的研究团队发表了《MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression》，提出通过混合不同稀疏度的注意力头，使用 25% 的注意力稠密度，就可以记忆几乎 100% 的上下文。
本工作现已开源，欢迎交流

原文链接：无问芯穹提出混合稀疏注意力方案MoA，加速长文本生成，实现最高8倍吞吐率提升