Transformer的无限之路：位置编码视角下的长度外推综述

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：Transformer的无限之路：位置编码视角下的长度外推综述
关键字：位置,模型,方法,能力,正弦
文章来源：机器之心
内容字数：5620字

内容摘要：

机器之心专栏
机器之心编辑部在自然语言处理（Natural Language Processing，NLP）领域，Transformer 模型因其在序列建模中的卓越性能而受到广泛关注。然而，Transformer 及在其基础之上的大语言模型（Large Language Models，LLMs）都不具备有效长度外推（Length Extrapolation）的能力。这意味着，受限于其训练时预设的上下文长度限制，大模型无法有效处理超过该长度限制的序列。
文本续写和语言延展是人类语言的核心能力之一，与之相对的，长度外推是语言模型智能进化的重要方向，也是在大模型时代最为高效的将模型的能力迁移到长序列数据的重要方法，对该问题的研究兼具理论价值和应用价值。因此，大量的相关工作持续涌现，在不断扩展语言模型能力边界的同时，也呼唤一篇系统性的综述来对这一领域进行概览。
基于此，哈尔滨工业大学的研究者们从位置编码（Position Encoding, PE）的角度出发，全面地总结了 Transformer 模型在长度外推方面的研究进展，系统地回顾了各种旨在增强 Transformer 长度外推能力的方法

原文链接：Transformer的无限之路：位置编码视角下的长度外推综述