清华微软最新力作：用物理学革新Transformer注意力，「大海捞针」精度暴涨30%！

AIGC动态欢迎阅读

原标题：清华微软最新力作：用物理学革新Transformer注意力，「大海捞针」精度暴涨30%！
关键字：注意力,模型,报告,上下文,微软
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：乔杨好困
【新智元导读】随着诺贝尔物理学奖颁给了「机器学习之父」Geoffrey Hinton，另一个借鉴物理学概念的模型架构也横空出世——微软清华团队的最新架构Differential Transformer，从注意力模块入手，实现了Transformer的核心能力提升。随着近些年来NLP领域研究的不断深入，我们逐渐发现，Transformer架构现的幻觉问题，以及各种下游任务中的性能不足，都或多或少与注意力缺陷有关。
虽然上下文窗口可以扩展，但是Transformer还是无法真正关注到有价值的信息。
最近，微软研究院和清华大学的研究人员共同提出了一种新的模型架构——Differential Transformer，不仅保留了原始Transformer中的可扩展性，也能让模型更加关注上下文中与任务相关的关键信息。
实验表明，注意力机制的改进，不仅显著提升了检索精度，还能缓解LLM的幻觉。
论文地址：https://arxiv.org/abs/2410.05258
Transformer的困境众所周知，Transformer的核心是注意力机制，采用softmax