标签:条目

全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%

机器之心报道编辑:大盘鸡本文介绍了一项近似注意力机制新研究,耶鲁大学、谷歌研究院等机构提出了 HyperAttention,使 ChatGLM2 在 32k 上下文长度上的推理...
阅读原文