面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了
关键字：上下文,长上,记忆,下文,高效
文章来源：机器之心
内容字数：8005字

内容摘要：

机器之心报道
编辑：rome rome作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力的进展。
ChatGPT 的诞生，让基于 Transformer 的大型语言模型 (LLM) 为通用人工智能（AGI）铺开了一条性的道路，并在知识库、人机交互、机器人等多个领域得到应用。然而，目前存在一个普遍的限制：由于资源受限，当前大多 LLM 主要是在较短的文本上进行预训练，导致它们在较长上下文方面的表现较差，而长上下文在现实世界的环境中是更加常见的。
最近的一篇综述论文对此进行了全面的调研，作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力的进展。
论文链接：https://arxiv.org/pdf/2311.12351.pdf
论文首先分析了使用当前基于 Transformer 的模型处理长上下文输入和输出的问题。然后，提供了一个全面的分类体系，以指导 Transformer 架构升级的领域，来解决这些问题。作者对长上下文 LLM 广泛使用的评估需求进行了调研，包

原文链接：面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了