AIGC动态欢迎阅读
原标题:拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」
关键字:算法,模型,架构,任务,问题
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:乔杨 好困
【新智元导读】DeepMind最近发表的一篇论文提出用混合架构的方法解决Transformer模型的推理缺陷。将Transformer的NLU技能与基于GNN的神经算法推理器(NAR)的强大算法推理能力相结合,可以实现更加泛化、稳健、准确的LLM推理。如今的NLP领域,已然是Transformer架构的天下。
从Bert到GPT,再到Llama、Claude,LLM模型使用Transformer已经是再正常不过的事情。
Transformer的「大一统」局面正是由于其简单、高效的架构,以及在理解自然语言方面无与伦比的泛化能力。
然而,随着研究的逐渐深入,Transformer的一个致命缺陷也逐渐暴露出来——无法胜任算法推理任务,尤其是不能进行精确、稳健的推理。
这严重限制了模型在数学、代码等领域下游任务的应用,近年来对Transformer的各种调优、修改似乎也收效甚微。
于是DeepMind的研究人员想到了混合架构——将Transformers的语言理解能力与基于图神经网络(GNN)的神经算法推理器(NAR)的稳健性结合起来,提升其算法推理能力。
他们最
原文链接:拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。