突破长上下文建模瓶颈:清华团队揭示状态崩溃的深层原因与解决方案

AIGC动态4个月前发布 新智元
449 0 0

突破长上下文建模瓶颈:清华团队揭示状态崩溃的深层原因与解决方案

原标题:不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃Mamba作者点赞
文章来源:新智元
内容字数:6006字

RNN模型在长上下文中的表现分析

近日,清华大学的研究团队针对RNN模型在处理长上下文时的表现进行了深入研究,结果表明问题并不在于RNN本身,而在于训练过程中的一些限制。

1. RNN的优势与挑战

RNN模型在应对长序列方面具有显著优势,例如Mamba模型,它的内部状态大小始终保持不变,计算复杂度随序列长度线性增长。然而,当前的RNN模型在长上下文中的实际表现却不尽如人意,主要面临两个问题:一是无法处理超过训练长度的输入,二是内存容量有限,导致新信息无法有效存储。

2. 研究发现与模型改进

研究表明,Mamba-2模型在256K上下文长度上达到了近乎完美的密钥检索精度。Mamba的作者Albert Gu对此表示赞赏,并指出状态空间模型(SSM)在状态容量和长上下文能力方面的潜力。实验发现,当训练上下文长度达到或超过某个临界值时,模型的泛化能力会显著提升。

3. 状态崩溃与容量上限

状态崩溃(SC)指的是模型在输入超过训练长度时表现异常,导致性能下降。研究发现,Mamba-2和RWKV-6在训练长度之外的语言建模损失显著增加。为了解决这一问题,研究提出了三种方法:增加状态衰减量、对状态进行归一化以及利用状态差异的滑动窗口机制。

4. 实验结果与结论

通过实验,研究人员训练了多种配置的Mamba-2模型,结果显示,状态归一化在较短序列上的表现不如其他方法。总的来说,研究团队成功抑制了状态崩溃,使模型能够在超过64K token的上下文中泛化,从而为RNN模型的未来应用开辟了新的可能性。

综上所述,Mamba模型的研究表明,通过适当的训练策略和模型调整,RNN在长上下文处理中的潜力仍然值得期待。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...