Meta对Transformer架构下手了：新注意力机制更懂推理

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：Meta对Transformer架构下手了：新注意力机制更懂推理

文章来源：机器之心

内容字数：5038字

内容摘要：机器之心报道编辑：杜伟、陈萍作者表示，这种全新注意力机制（Sytem 2 Attention）或许你也需要呢。大型语言模型（LLM）很强已经是一个不争的事实，但它们有时仍然容易犯一些简单的错误，表现出较弱的推理能力。举个例子，LLM 可能会因不相关的上下文或者输入提示中固有的偏好或意见做出错误的判断。后一种情况表现出的问题被叫做「阿谀奉承」，即模型与输入保持一致。有没有方法来缓解这类问题呢？有些学者试图通过添加更多监督训练数据或通过强化学习策略来解决，但这些无法从根本上解决问题。近日 Meta 研究者在论文《System 2 Attention (is something you might need too)》中认为，根本问题在于 Transformer 本身固有的构建方式，尤其是其注意力机制。也就是说，软注意力既倾向于将概率分配给大部分上下文（包括不相关的部分），也倾向于过度关注重复的…

原文链接：点此阅读原文：Meta对Transformer架构下手了：新注意力机制更懂推理