今日Arxiv最热NLP大模型论文：清华大学让大语言模型自动并行自回归解码，速度提升高达4倍！

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：今日Arxiv最热NLP大模型论文：清华大学让大语言模型自动并行自回归解码，速度提升高达4倍！
关键字：解读,模型,吞吐量,序列,缓存
文章来源：夕小瑶科技说
内容字数：11566字

内容摘要：

夕小瑶科技说原创作者 | 赛博马良
本文内容由赛博马良「AI论文解读达人」智能体生成，人工整理排版。
「AI论文解读达人」可提供最热AI论文推荐、论文解读等功能。
传送门：
https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf
引言：大型语言模型的高效部署挑战随着大型语言模型（LLMs）在各种人工智能应用中的广泛应用，对于这些模型的高效部署需求日益增长。高效部署在这里指的是低延迟和高吞吐量。然而，LLMs的基础自回归（AR）结构给实现更高效的服务带来了显著挑战。首先，自回归解码过程中，每一个新的词元都是基于之前生成的所有词元条件生成的，这种增量式解码导致生成速度不理想，因为每一步生成都需要访问LLM的大量参数。其次，Transformer模型在生成过程中对所有前序词元的注意力计算也限制了服务吞吐量。在高吞吐量场景中，许多序列并行生成，生成过程变得计算密集型。同时，注意力计算的成本与序列长度线性增长，尤其对于长响应，这限制了吞吐量的进一步提高。此外，为生成的词元缓存键

原文链接：今日Arxiv最热NLP大模型论文：清华大学让大语言模型自动并行自回归解码，速度提升高达4倍！