LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍
关键字：上下文,窗口,位置,长度,研究人员
文章来源：新智元
内容字数：10906字

内容摘要：

新智元报道编辑：LRS
【新智元导读】LongRoPE方法首次将LLM的窗口扩展到了2048k个token，只是简单微调的情况下，就能实现与短上下文窗口相近的性能！大型语言模型（LLM）往往会追求更长的「上下文窗口」，但由于微调成本高、长文本稀缺以及新token位置引入的灾难值（catastrophic values）等问题，目前模型的上下文窗口大多不超过128k个token
最近，Microsoft Research的研究人员提出了一个新模型LongRoPE，首次将预训练 LLM 的上下文窗口扩展到了2048k个token，在256k的训练长度下只需要1000个微调步骤即可，同时还能保持原始短上下文窗口的性能。论文链接：https://arxiv.org/abs/2402.13753
代码链接：https: //github.com/microsoft/LongRoPE
LongRoPE主要包含了三个关键创新点：
1. 通过高效搜索识别并利用了位置插值中的两种非均匀性，为微调提供了更好的初始化，并在非微况下实现了 8 倍扩展；
2. 引入了渐进扩展策略，首先微调 256k 长度

原文链接：LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍