标签:处理长序列数据

什么是NSA(Native Sparse Attention)

NSA(Native Sparse Attention )是DeepSeek提出的一种新型稀疏注意力机制,通过算法创新和硬件优化提升长文本建模的效率。核心在于动态分层稀疏策略,结合粗...
阅读原文