今日Arxiv最热NLP大模型论文：Llama-2上下文扩大48倍的方法来了，港大发布，无需训练

AIGC动态1年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：今日Arxiv最热NLP大模型论文：Llama-2上下文扩大48倍的方法来了，港大发布，无需训练
关键字：模型,上下文,长上,下文,长度
文章来源：夕小瑶科技说
内容字数：9509字

内容摘要：

夕小瑶科技说原创作者 | 芒果
引言：大语言模型的长上下文理解能力在当今的人工智能领域，大语言模型（Large Language Models，简称LLMs）的长上下文理解能力成为了一个重要的研究方向。这种能力对于模型来说至关重要，因为它使得LLMs能够有效地应对各种应用场景，例如在庞大的PDF文件中分析和回应查询、保留扩展的对话历史以及增强交互式机器人的功能。然而，由于训练语料库的可获取性有限，以及长上下文微调的成本过高，目前的开源模型在性能上往往无法与专有模型相媲美，且通常只能提供较小的模型尺寸（例如7B/13B）。
针对这些限制，不需要额外训练即可进行上下文扩展的方法变得尤为吸引人。最近的无训练方法，包括LM-infinite和StreamingLLM，已经展示了在有限上下文窗口训练的LLMs能够高效处理无限长度的文本。这些模型通过选择性保留关键的局部信息来处理扩展序列，有效地维持了低困惑度（Perplexity，PPL），但它们失去了长距离依赖性。为了保留全局信息，另一种观点是有效地推断出超出训练时遇到的序列长度。一些流行的技术，如基于Llama模型的位置插值（PI）和N

原文链接：今日Arxiv最热NLP大模型论文：Llama-2上下文扩大48倍的方法来了，港大发布，无需训练