AIGC动态欢迎阅读
原标题:LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍
关键字:上下文,窗口,位置,长度,研究人员
文章来源:新智元
内容字数:10906字
内容摘要:
新智元报道编辑:LRS
【新智元导读】LongRoPE方法首次将LLM的窗口扩展到了2048k个token,只是简单微调的情况下,就能实现与短上下文窗口相近的性能!大型语言模型(LLM)往往会追求更长的「上下文窗口」,但由于微调成本高、长文本稀缺以及新token位置引入的灾难值(catastrophic values)等问题,目前模型的上下文窗口大多不超过128k个token
最近,Microsoft Research的研究人员提出了一个新模型LongRoPE,首次将预训练 LLM 的上下文窗口扩展到了2048k个token,在256k的训练长度下只需要1000个微调步骤即可,同时还能保持原始短上下文窗口的性能。论文链接:https://arxiv.org/abs/2402.13753
代码链接:https: //github.com/microsoft/LongRoPE
LongRoPE主要包含了三个关键创新点:
1. 通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供了更好的初始化,并在非微调情况下实现了 8 倍扩展;
2. 引入了渐进扩展策略,首先微调 256k 长度
原文链接:LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...