拯救Transformer推理能力！DeepMind新研究TransNAR：给模型嵌入「算法推理大脑」

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：拯救Transformer推理能力！DeepMind新研究TransNAR：给模型嵌入「算法推理大脑」
关键字：算法,模型,架构,任务,问题
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：乔杨好困
【新智元导读】DeepMind最近发表的一篇论文提出用混合架构的方法解决Transformer模型的推理缺陷。将Transformer的NLU技能与基于GNN的神经算法推理器（NAR）的强大算法推理能力相结合，可以实现更加泛化、稳健、准确的LLM推理。如今的NLP领域，已然是Transformer架构的天下。
从Bert到GPT，再到Llama、Claude，LLM模型使用Transformer已经是再正常不过的事情。
Transformer的「大一统」局面正是由于其简单、高效的架构，以及在理解自然语言方面无与伦比的泛化能力。
然而，随着研究的逐渐深入，Transformer的一个致命缺陷也逐渐暴露出来——无法胜任算法推理任务，尤其是不能进行精确、稳健的推理。
这严重限制了模型在数学、代码等领域下游任务的应用，近年来对Transformer的各种调优、修改似乎也收效甚微。
于是DeepMind的研究人员想到了混合架构——将Transformers的语言理解能力与基于图神经网络（GNN）的神经算法推理器（NAR）的稳健性结合起来，提升其算法推理能力。
他们最

原文链接：拯救Transformer推理能力！DeepMind新研究TransNAR：给模型嵌入「算法推理大脑」