清华NLP组发布InfLLM：无需额外训练，「1024K超长上下文」100%召回！

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：清华NLP组发布InfLLM：无需额外训练，「1024K超长上下文」100%召回！
关键字：记忆,上下文,语义,模型,单元
文章来源：新智元
内容字数：6896字

内容摘要：

新智元报道编辑：LRS
【新智元导读】挖掘大模型固有的长文本理解能力，InfLLM在没有引入额外训练的情况下，利用一个外部记忆模块存储超长上下文信息，实现了上下文长度的扩展。大模型只能够记忆与理解有限的上下文已经成为大模型在真实应用中的能力瓶颈，例如对话式AI系统往往无法记忆你前一天对话的内容，利用大模型构建智能体会产生前后不一致的行为与记忆。
为了让大模型能够记忆并处理更长的上下文，来自清华大学、麻省理工学院和人民大学的研究人员联合提出无需额外训练的大模型长文本理解方法 InfLLM，利用少量计算和显存开销实现了 LLM的超长文本处理。论文地址：https://arxiv.org/abs/2402.04617
代码仓库：https://github.com/thunlp/InfLLM
实验结果表明，InfLLM能够有效地扩展Mistral、LLaMA的上下文处理窗口，并在1024K上下文的海底捞针任务中实现100%召回。
研究背景大规模预训练语言模型（LLMs）近几年在众多任务上取得了突破性的进展，成为众多应用的基础模型。
这些真实应用也给LLMs处理超长序列的能力提出了更高的要求

原文链接：清华NLP组发布InfLLM：无需额外训练，「1024K超长上下文」100%召回！