标签:DIFFTransformer

颠覆传统:DIFF Transformer 架构引领大语言模型的新纪元

微软 AI 和清华大学的研究人员提出了一种名为差分 Transformer(DIFF Transformer)的新架构,旨在提高大语言模型的性能。
阅读原文