LongRoPE：超越极限，将大模型上下文窗口扩展超过200万tokens

AIGC动态2年前 (2024)发布大数据文摘

AIGC动态欢迎阅读

原标题：LongRoPE：超越极限，将大模型上下文窗口扩展超过200万tokens
关键字：上下文,模型,窗口,位置,长度
文章来源：大数据文摘
内容字数：6590字

内容摘要：

大数据文摘受权转载自微软亚洲研究院
编者按：大模型的飞速发展给人们的生活带来了前所未有的便利。我们是否能够设想利用大模型的潜力，快速扫描整部百科全书、解析繁琐复杂的法律条款，甚至对文章进行精准引用呢？在未来，这些将统统可以实现。然而，目前传统的大模型的上下文窗口限制与昂贵的微调成本使得它们难以处理超长文本，从而限制了其应用潜力。为解决这一问题，微软亚洲研究院的研究员们提出了 LongRoPE。通过精细化非均匀位置插值和渐进式扩展策略，LongRoPE 成功将大模型的上下文窗口扩展至2048k，不仅保持了原始短上下文窗口的性能，还大幅提升了长文本处理的效果。LongRoPE 的应用前景广阔，将为大模型的发展带来更多可能。在2024年，长文本问题已成为大模型发展中备受关注的关键挑战。人们普遍认为，能够接受无限长度输入的大模型将会带来许多重大突破。例如，它可以一口气通读整套百科全书、冗长的法律条文、或大部头的经典医学教材，并准确提供任意章节的简要引用。这对于研究人员和公众都将是巨大的助益。如果大模型可以将一个人所有相关的信息（文本、照片、音视频等）作为上下文全部输入，那么甚至可能为该人创建一

原文链接：LongRoPE：超越极限，将大模型上下文窗口扩展超过200万tokens