一文比较 Kimi 和 deepseek 的两篇稀疏注意力机制论文

AIGC动态16小时前发布 JioNLP
2 0 0

Kimi 和 Deepseek 的两篇论文比较与解析

一文比较 Kimi 和 deepseek 的两篇稀疏注意力机制论文

原标题:一文比较 Kimi 和 deepseek 的两篇稀疏注意力机制论文
文章来源:JioNLP
内容字数:6009字

Kimi与Deepseek:稀疏注意力机制的巅峰对决

近日,Kimi和Deepseek分别发布了关于稀疏注意力机制的论文,两篇论文在发布时间和主题上高度相似,堪称“神仙打架”。本文将对两篇论文的核心内容进行解读和比较,并分享个人感受。

1. 问题背景:Transformer的计算瓶颈

Transformer模型虽然强大,但其计算量巨大,尤其是在处理长上下文时,模型长度动辄达到8k、32k甚至128k,对GPU造成极大压力。问题的核心在于Transformer的核心注意力机制需要针对每一个q,遍历所有k和v进行计算,计算复杂度极高。

2. Kimi的MoBA:混合块注意力机制

Kimi的论文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS》提出了一种名为MoBA的混合块注意力机制。MoBA将序列长度划分为多个大小相同的块,并选择性地与q进行匹配计算。具体来说,MoBA首先计算q与其所在块的相关性,然后计算q与其他块的平均池化结果的相关性,选择相关性高的块进行计算。图示清晰地展现了这一过程,其中绿色部分表示被选中的k和v位置。MoBA实际上是对多种稀疏注意力机制的泛化,旨在统一稀疏注意力领域的各种方法。

3. Deepseek的NSA:原生稀疏注意力机制

Deepseek的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》提出了原生稀疏注意力机制NSA。NSA同样将序列分为多个块,并采用了三种策略:块选择、压缩块注意力和滑动窗口注意力。压缩块注意力对多个块进行MLP压缩,生成粒度较粗的k和v;块选择策略与MoBA类似;滑动窗口注意力则与MoBA的滑动窗口方法类似,但可以跨块。NSA将三种策略的结果拼接作为输出。论文还详细阐述了基于Triton的硬件加速。

4. 两篇论文的比较

两篇论文的核心思想高度相似,都是通过选择性地计算部分k和v来实现稀疏注意力。MoBA采用单一的块选择方法,而NSA融合了三种策略。实验结果显示,两者都比Flash Attention更快,但在模型效果上略有差异:MoBA在训练初期损失值略高,但最终逼近Full Attention;NSA的损失值则略低于Full Attention。在“海底捞针”实验中,两者均达到100%的准确率。

5. 实验结果与分析

Kimi的实验长度达到了100万,Deepseek则分别对前向和反向传播进行了对比实验。两者都展现了稀疏注意力的优越性,但NSA融合多种策略,效果可能略优于MoBA。 需要注意的是,NSA论文中存在少量笔误。

6. 个人感受

两篇论文都体现了国内AI技术研究的快速进步,其简洁清晰的写作风格令人印象深刻。 然而,NSA论文中并未详细分析三种策略各自的贡献,以及不同策略之间的差异,这有待进一步研究。

7. 未来的展望

作者对稀疏注意力机制有更深入的思考,并暗示拥有更优的方法,将在后续文章中详细阐述。


联系作者

文章来源:JioNLP
作者微信:
作者简介:用数学和程序解构世界。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...