AIGC动态欢迎阅读
原标题:北大发现了一种特殊类型的注意力头!
关键字:模型,屏蔽,研究人员,幻觉,上下文
文章来源:夕小瑶科技说
内容字数:5520字
内容摘要:
夕小瑶科技说 原创作者 | 任同学检索头的发现或许将有力地帮助大模型领域在提高长上下文推理能力、减少幻觉和压缩KV缓存方面的研究。
从 Claude100K 到 Gemini10M,我们正处于长上下文语言模型的时代。如何在长上下文中利用任何输入位置的信息?北大联合另外四所高校发现了一种特殊类型的、负责从长上下文中进行检索的注意力头。
研究人员对4个模型族、6个模型尺度和3种微调类型的系统调查表明,存在一种特殊类型的注意力头(称之为检索头),它主要负责从长上下文中检索相关信息。
研究人员发现了检索头具有一些重要和有趣的性质:
通用性:所有具有长上下文能力的探索模型都有一组检索头;
稀疏性:只有一小部分(小于5%)的注意头是检索头;
内在性:检索头在短上下文预训练的模型中已经存在。当将上下文长度扩展到32-128K时,仍然是同一组注意力头执行信息检索;
动态激活:以 Llama-27B 为例,无论上下文如何变化,12个检索头始终关注所需信息。其余的检索头在不同的环境中被激活;
因果关系:完全修剪检索头导致检索相关信息失败,产生幻觉,而修剪随机的非检索头不影响模型的检索能力。
由于检索头用于
原文链接:北大发现了一种特殊类型的注意力头!
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...