大模型长上下文运行的关键问题

AIGC动态2年前 (2023)发布人工智能学家

大模型长上下文运行的关键问题

AIGC动态欢迎阅读

原标题：大模型长上下文运行的关键问题

文章来源：人工智能学家

内容字数：20128字

内容摘要：上下文长度的增加是 LLM 的一个显著发展趋势。过去一年，几种长上下文语言模型陆续问世，包括 GPT-4（32k上下文）、MosaicML 的 MPT（65k上下文）、Anthropic 的 Claude（100k上下文）等。然而，扩大 Transformer 的上下文长度是一个挑战，因为其核心的注意力层在时间复杂度和空间复杂度与输入序列长度的平方成正比。一年前，来自斯坦福大学、纽约州立大学布法罗…

原文链接：点此阅读原文：大模型长上下文运行的关键问题