“梁文锋、杨植麟同一天文,关注大模型的未来趋势“

“梁文锋、杨植麟同一天发论文,关注大模型的未来趋势“

原标题:“梁文锋、杨植麟同一天文,关注大模型的未来趋势“
文章来源:人工智能学家
内容字数:14427字

两家AI公司聚焦长文本处理:DeepSeek和月之暗面最新研究成果对比

近日,DeepSeek和月之暗面(Moonshot AI)几乎同时发布了各自最新的研究成果,都集中于改进Transformer架构中的注意力机制,以提升其处理长文本的能力并降低计算成本。这体现了业界对高效处理长文本的迫切需求,也反映了技术创新竞争的激烈程度。两家公司的明星创始人均亲自参与了研究,引发了广泛关注。

1. Transformer架构的瓶颈:长文本处理的挑战

Transformer架构虽然是AI发展史上的里程碑,但其注意力机制的计算复杂度与输入序列长度的平方成正比(O(n²))。这意味着处理长文本(例如超过1万个token)的计算成本和内存占用会急剧增加,成为模型进一步扩展和提升能力的主要障碍。

2. DeepSeek的NSA:原生可训练的稀疏注意力机制

DeepSeek的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》提出了原生可训练的稀疏注意力机制NSA (Natively Trainable Sparse Attention)。NSA通过动态分层稀疏策略,结合粗粒度token压缩和细粒度token选择,实现了对长上下文的高效建模。其核心在于减少不必要的计算,在保持性能的同时提升速度。NSA具有两大创新:

  1. 算法优化:NSA设计了一种平衡计算强度的算法,并针对现代硬件进行了优化,类似于高效阅读,只关注重要部分。
  2. 端到端训练:NSA允许模型从头到尾进行训练,无需额外计算步骤,减少训练时间并提升模型表现。

实验表明,NSA在多个任务上表现出色,在处理64k长度序列时,解码、前向传播和后向传播分别实现了2.5倍、3.1倍和2.8倍的加速,同时保持了与全注意力模型相当甚至更好的性能。

3. 月之暗面的MoBA:混合块注意力架构

月之暗面的论文《MoBA: Mixture of Block Attention for Long-Context LLMs》提出了混合块注意力架构MoBA (Mixture of Block Attention)。MoBA同样旨在解决长文本处理的计算瓶颈,其核心思想是让模型自己决定关注哪些部分,而不是人为规定。MoBA借鉴了“专家混合(MoE)”的思想,灵活地在全注意力和稀疏注意力之间切换,在保持性能的同时显著降低了计算量。

MoBA已经被应用于月之暗面的AI助手Kimi中,帮助其更好地处理长文本请求,例如总结长篇小说。

4. 两家公司在模型架构上的“撞车”与思维链的探索

这并非DeepSeek和月之暗面第一次在核心思想上“撞车”。此前,DeepSeek发布R1时,Kimi也公开了K1.5的技术报告,两者的目标都是通过强化学习提升AI的推理能力,尤其是在思维链学习(COT)方面的应用。OpenAI在其论文中也提到了DeepSeek-R1和Kimi K1.5,认可了它们在推理能力方面的成就,并强调了COT方法的重要性。

DeepSeek和月之暗面在长文本处理和推理能力提升上的持续探索,预示着AI模型创新正朝着更有效率、更强大的方向发展。


联系作者

文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...