​新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度

AIGC动态10个月前发布 机器之心
63 0 0

​新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度

AIGC动态欢迎阅读

原标题:​新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度
关键字:序列,线性,模型,速度,注意力
文章来源:机器之心
内容字数:7588字

内容摘要:


机器之心专栏
机器之心编辑部Lightning Attention-2 是一种新型的线性注意力机制,让长序列的训练和推理成本与 1K 序列长度的一致。
大语言模型序列长度的限制,极大地制约了其在人工智能领域的应用,比如多轮对话、长文本理解、多模态数据的处理与生成等。造成这一限制的根本原因在于当前大语言模型均采用的 Transformer 架构有着相对于序列长度的二次计算复杂度。这意味着随着序列长度的增加,需要的计算资源成几何倍数提升。如何高效地处理长序列一直是大语言模型的挑战之一。
之前的方法往往集中在如何让大语言模型在推理阶段适应更长的序列。比如采用 Alibi 或者类似的相对位置编码的方式来让模型自适应不同的输入序列长度,亦或采用对 RoPE 等类似的相对位置编码进行差值的方式,在已经完成训练的模型上再进行进一步的短暂精调来达到扩增序列长度的目的。这些方法只是让大模型具有了一定的长序列建模能力,但实际训练和推理的开销并没有减少。
OpenNLPLab 团队尝试一劳永逸地解决大语言模型长序列问题。他们提出并开源了 Lightning Attention-2—— 一种新型的线性注意力机


原文链接:​新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...