单卡A100实现百万token推理，速度快10倍，这是微软官方的大模型推理加速

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：单卡A100实现百万token推理，速度快10倍，这是微软官方的大模型推理加速
关键字：上下文,长上,注意力,下文,斜线
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：张倩、陈萍微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1M 的输入文本。大型语言模型 (LLM) 已进入长上下文处理时代，其支持的上下文窗口从先前的 128K 猛增到 10M token 级别。
然而，由于注意力机制的二次复杂度，模型处理输入提示（即预填充阶段）并开始产生第一个 token 可能需要几分钟时间。导致首个 token 生成的时间过长，从而严重影响了用户体验，这也极大地限制了长上下文 LLM 的广泛应用。
举例来说（如图 2a 所示），在单台装有 A100 的机器上为 LLaMA-3-8B 提供服务时，如果提示有 30 万个 token，模型需要 6 分钟才能完成预填充（ pre-filling）阶段，如果提示增加到 100 万个 token，这个数字将增加到 30 分钟。自注意力计算的开销占到了总预填充延迟的 90% 以上，这使其成为 LLM 处理长上下文时的主要瓶颈。现有的加速预填充方法在应用于长上下文 LLM 时通常无法保持可接受的准确性或效率。
为了解决上述问题，来自微软、萨里大学的研究者提出了一种旨在加速长序列处理预填充的

原文链接：单卡A100实现百万token推理，速度快10倍，这是微软官方的大模型推理加速