DeepSeek 性 NSA 注意力机制问世。
原标题:梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍
文章来源:AI科技评论
内容字数:5637字
DeepSeek性注意力机制NSA:高效长上下文训练与推理
近日,DeepSeek团队发布了关于新型注意力机制NSA(Native Sparse Attention)的研究论文,引起广泛关注。该机制旨在解决传统注意力机制在长上下文训练和推理中的效率问题,并在多个方面展现出显著优势。
NSA的核心技术及优势
NSA的核心在于动态分层稀疏策略、粗粒度token压缩和细粒度token选择。这三点协同工作,有效降低了预训练成本,并显著提升了推理速度,尤其在解码阶段实现了高达11.6倍的提升。NSA还具有硬件友好型特性,通过Triton实现了与硬件的高度兼容。
NSA的性能评估
DeepSeek团队从通用基准性能、长文本基准性能和思维链推理性能三个方面对NSA进行了评估,并将其与全注意力基线和SOTA稀疏注意力方法进行比较。结果显示,NSA在多个基准测试中均优于其他方法,尤其在长上下文任务中表现突出,例如在64k上下文的“大海捞针”测试中展现了极高的检索精度。在LongBench基准测试中,NSA获得了最高平均分0.469。
NSA在复杂数学问题上的应用
论文中展示了NSA在处理复杂数学问题上的优势。通过优化问题理解和答案生成,NSA将所需的tokens数量减少至2275,成功得出正确答案,而基线方法则需要9392个tokens并最终得出错误答案。这验证了此前清华大学姚班论文中关于Transformer架构在处理复杂数学问题时存在瓶颈的结论。
DeepSeek未来的研究方向
DeepSeek未来的研究可能将更加专注于优化模型在长文本和代码库分析中的表现,进一步提升其推理能力和实用性,以应对现实世界中对深度推理、代码库级代码生成和多轮自主代理系统等应用场景日益增长的需求。
总而言之,DeepSeek提出的NSA注意力机制为高效的长上下文训练和推理提供了一种新的解决方案,其在速度、效率和性能上的提升都非常显著,为大模型的发展带来了新的突破。
联系作者
文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。