一文比较 Kimi 和 deepseek 的两篇稀疏注意力机制论文

Kimi 和 Deepseek 的两篇论文比较与解析

原标题：一文比较 Kimi 和 deepseek 的两篇稀疏注意力机制论文
文章来源：JioNLP
内容字数：6009字

Kimi与Deepseek：稀疏注意力机制的巅峰对决

近日，Kimi和Deepseek分别发布了关于稀疏注意力机制的论文，两篇论文在发布时间和主题上高度相似，堪称“神仙打架”。本文将对两篇论文的核心内容进行解读和比较，并分享个人感受。

1. 问题背景：Transformer的计算瓶颈

Transformer模型虽然强大，但其计算量巨大，尤其是在处理长上下文时，模型长度动辄达到8k、32k甚至128k，对GPU造成极大压力。问题的核心在于Transformer的核心注意力机制需要针对每一个q，遍历所有k和v进行计算，计算复杂度极高。

2. Kimi的MoBA：混合块注意力机制

Kimi的论文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS》提出了一种名为MoBA的混合块注意力机制。MoBA将序列长度划分为多个大小相同的块，并选择性地与q进行匹配计算。具体来说，MoBA首先计算q与其所在块的相关性，然后计算q与其他块的平均池化结果的相关性，选择相关性高的块进行计算。图示清晰地展现了这一过程，其中绿色部分表示被选中的k和v位置。MoBA实际上是对多种稀疏注意力机制的泛化，旨在统一稀疏注意力领域的各种方法。

3. Deepseek的NSA：原生稀疏注意力机制

Deepseek的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》提出了原生稀疏注意力机制NSA。NSA同样将序列分为多个块，并采用了三种策略：块选择、压缩块注意力和滑动窗口注意力。压缩块注意力对多个块进行MLP压缩，生成粒度较粗的k和v；块选择策略与MoBA类似；滑动窗口注意力则与MoBA的滑动窗口方法类似，但可以跨块。NSA将三种策略的结果拼接作为输出。论文还详细阐述了基于Triton的硬件加速。

4. 两篇论文的比较

两篇论文的核心思想高度相似，都是通过选择性地计算部分k和v来实现稀疏注意力。MoBA采用单一的块选择方法，而NSA融合了三种策略。实验结果显示，两者都比Flash Attention更快，但在模型效果上略有差异：MoBA在训练初期损失值略高，但最终逼近Full Attention；NSA的损失值则略低于Full Attention。在“海底捞针”实验中，两者均达到100%的准确率。

5. 实验结果与分析

Kimi的实验长度达到了100万，Deepseek则分别对前向和反向传播进行了对比实验。两者都展现了稀疏注意力的优越性，但NSA融合多种策略，效果可能略优于MoBA。需要注意的是，NSA论文中存在少量笔误。

6. 个人感受

两篇论文都体现了国内AI技术研究的快速进步，其简洁清晰的写作风格令人印象深刻。然而，NSA论文中并未详细分析三种策略各自的贡献，以及不同策略之间的差异，这有待进一步研究。

7. 未来的展望

作者对稀疏注意力机制有更深入的思考，并暗示拥有更优的方法，将在后续文章中详细阐述。

联系作者

文章来源：JioNLP
作者微信：
作者简介：用数学和程序解构世界。

阅读原文

# AIGC动态 # DeepSeek模型 # Kimi模型 # 稀疏注意力机制 # 长序列建模 # 高效Transformer

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

一文比较 Kimi 和 deepseek 的两篇稀疏注意力机制论文

Kimi 和 Deepseek 的两篇论文比较与解析

Kimi与Deepseek：稀疏注意力机制的巅峰对决

1. 问题背景：Transformer的计算瓶颈

2. Kimi的MoBA：混合块注意力机制

3. Deepseek的NSA：原生稀疏注意力机制

4. 两篇论文的比较

5. 实验结果与分析

6. 个人感受

7. 未来的展望

联系作者

上海GDC大会如何打造“社区的社区”？｜甲子光年

爆：OpenAI 下周发布 GPT-4.5，5 月发布GPT-5！

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点