全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%

AIGC动态10个月前发布 机器之心
13 0 0

全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%

AIGC动态欢迎阅读

原标题:全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%

关键字:矩阵,注意力,算法,研究者,条目

文章来源:机器之心

内容字数:9661字

内容摘要:机器之心报道编辑:大盘鸡本文介绍了一项近似注意力机制新研究,耶鲁大学、谷歌研究院等机构提出了 HyperAttention,使 ChatGLM2 在 32k 上下文长度上的推理时间快了 50%。Transformer 已经成功应用于自然语言处理、计算机视觉和时间序列预测等领域的各种学习任务。虽然取得了成功,但这些模型仍面临着严重的可扩展性限制,原因是对其注意力层的精确计算导致了二次(在序列长度上)…

原文链接:点此阅读原文:全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...