全新近似注意力机制HyperAttention：对长上下文友好、LLM推理提速50%

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：全新近似注意力机制HyperAttention：对长上下文友好、LLM推理提速50%

文章来源：机器之心

内容字数：9661字

内容摘要：机器之心报道编辑：大盘鸡本文介绍了一项近似注意力机制新研究，耶鲁大学、谷歌研究院等机构提出了 HyperAttention，使 ChatGLM2 在 32k 上下文长度上的推理时间快了 50%。Transformer 已经成功应用于自然语言处理、计算机视觉和时间序列预测等领域的各种学习任务。虽然取得了成功，但这些模型仍面临着严重的可扩展性限制，原因是对其注意力层的精确计算导致了二次（在序列长度上）…

原文链接：点此阅读原文：全新近似注意力机制HyperAttention：对长上下文友好、LLM推理提速50%