刚刚,DeepSeek又发高质量论文,梁文锋合著!

这篇论文的第一作者在实习期间完成了研究。

刚刚,DeepSeek又发高质量论文,梁文锋合著!

原标题:刚刚,DeepSeek又发高质量论文梁文锋合著!
文章来源:智东西
内容字数:6730字

DeepSeek发布新型稀疏注意力机制NSA:长上下文训练推理提速利器

近日,DeepSeek团队发布论文,介绍了一种名为NSA(Novel Sparse Attention)的改进型稀疏注意力机制,该机制在长上下文训练和推理中展现出显著的速度提升,尤其在解码阶段最高可达11.6倍。论文第一作者Jingyang Yuan在实习期间完成了这项研究,DeepSeek创始人兼CEO梁文锋也参与其中。

1. 现有稀疏注意力机制的缺陷与NSA的优势

传统的注意力机制在处理长序列时计算复杂度极高,限制了长文本建模的发展。现有的稀疏注意力机制虽然在理论上降低了计算复杂度,但在实际应用中往往未能有效降低延迟,部分原因在于它们只在推理阶段或预填充阶段应用稀疏性,缺乏对训练阶段的支持,且难以适应现代高效的解码架构。NSA则旨在解决这些问题,通过在训练和推理阶段都应用稀疏性,并针对现代硬件进行优化,实现全阶段加速。

2. NSA的三大核心组件及软硬件协同优化

NSA的核心思想是通过动态分层稀疏策略,结合粗粒度token压缩和细粒度token选择,在提升效率的同时保留模型对全局长上下文感知能力和局部精确性。其三大核心组件包括:

  1. 动态分层稀疏策略:根据不同层级的需求动态调整稀疏程度。
  2. 粗粒度token压缩:将键值对聚合成块级表示,捕捉高层语义信息。
  3. 精粒度token选择:根据重要性分数选择关键的细粒度信息。

此外,NSA在Triton上实现了硬件对齐的稀疏注意力内核,并针对共享KV缓存的架构(如GQA和MQA)进行了优化,通过以组为中心的数据加载、共享KV加载和网格循环调度等策略,实现了近乎最优的计算强度平衡。

3. NSA的性能表现:训练提速6-9倍,推理提速高达11.6倍

DeepSeek使用一个27B参数的LLM模型(其中3B为活跃参数)对NSA进行了评估。结果显示,在8卡A100计算集群上,NSA的前向传播和反向传播速度分别比全注意力快9倍和6倍。在长序列解码时,NSA相较于全注意力模型速度显著提升,最高可达11.6倍。在通用基准、长上下文任务和基于指令的推理上,采用NSA机制的模型与全注意力模型相当或表现更优。

4. 总结

NSA作为一种新型的稀疏注意力机制,通过软硬件协同深度优化,有效解决了现有稀疏注意力机制的缺陷,在长上下文训练和推理中实现了显著的加速效果,为下一代大语言模型的发展提供了新的可能性。其在训练阶段的应用以及对现代硬件的优化,使其成为一个极具性价比的解决方案。


联系作者

文章来源:智东西
作者微信:
作者简介:智能产业新媒体!智东西专注报道人工智能主导的前沿技术发展,和技术应用带来的千行百业产业升级。聚焦智能变革,服务产业升级。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...