人大高瓴提出“注意力波”方法，70 亿参数 Llama 比肩 GPT-4

AIGC动态2年前 (2023)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：人大高瓴提出“注意力波”方法，70 亿参数 Llama 比肩 GPT-4
关键字：位置,上下文,注意力,模型,性能
文章来源：夕小瑶科技说
内容字数：8250字

内容摘要：

夕小瑶科技说原创作者 | 智商掉了一地、python最近，随着大型语言模型（LLM）在人机交互、多模态任务和语言应用等领域的广泛应用，研究者们纷纷致力于提升这些模型在处理复杂上下文时的性能。
来自人大高瓴的作者以一种新的视角出发，着眼于注意力机制在上下文中不同位置的关注程度，就好像木桶里的水在不同木板上停留或流动一样。作者将模型在每个角度基准处对上下文中特定位置的有限认知比作木桶上的较短木板，这些木板的长度不同反映了模型对不同位置的关注程度。形象地说，一个位置的注意力波可能表现为槽，而另一个位置可能表现为峰，就像木桶中的较长木板弥补了较短木板的缺陷。
为了解决语言模型在处理复杂上下文时的局限性，作者提出了 Attention Buckets 这一概念，旨在通过不同角度的处理方式来弥补注意力机制的局限性，从而提高对多个上下文位置的关注，使得模型能够更全面、更灵活地理解和处理复杂的上下文信息，降低 LLM 错过注意力槽内关键信息的风险。在实验中，甚至当 Attention Buckets 与 DFSDT-Retriever 设置配对时，不仅与 GPT-4 的性能水平相匹配，而且在许多情况

原文链接：人大高瓴提出“注意力波”方法，70 亿参数 Llama 比肩 GPT-4