突破长上下文建模瓶颈：清华团队揭示状态崩溃的深层原因与解决方案

原标题：不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞
文章来源：新智元
内容字数：6006字

近日，清华大学的研究团队针对RNN模型在处理长上下文时的表现进行了深入研究，结果表明问题并不在于RNN本身，而在于训练过程中的一些限制。

RNN模型在应对长序列方面具有显著优势，例如Mamba模型，它的内部状态大小始终保持不变，计算复杂度随序列长度线性增长。然而，当前的RNN模型在长上下文中的实际表现却不尽如人意，主要面临两个问题：一是无法处理超过训练长度的输入，二是内存容量有限，导致新信息无法有效存储。

研究表明，Mamba-2模型在256K上下文长度上达到了近乎完美的密钥检索精度。Mamba的作者Albert Gu对此表示赞赏，并指出状态空间模型（SSM）在状态容量和长上下文能力方面的潜力。实验发现，当训练上下文长度达到或超过某个临界值时，模型的泛化能力会显著提升。

状态崩溃（SC）指的是模型在输入超过训练长度时表现异常，导致性能下降。研究发现，Mamba-2和RWKV-6在训练长度之外的语言建模损失显著增加。为了解决这一问题，研究提出了三种方法：增加状态衰减量、对状态进行归一化以及利用状态差异的滑动窗口机制。

通过实验，研究人员训练了多种配置的Mamba-2模型，结果显示，状态归一化在较短序列上的表现不如其他方法。总的来说，研究团队成功抑制了状态崩溃，使模型能够在超过64K token的上下文中泛化，从而为RNN模型的未来应用开辟了新的可能性。

综上所述，Mamba模型的研究表明，通过适当的训练策略和模型调整，RNN在长上下文处理中的潜力仍然值得期待。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

文章版权归作者所有，未经允许请勿转载。

暂无评论...