八问八答搞懂Transformer内部运作原理

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：八问八答搞懂Transformer内部运作原理
关键字：中间层,顺序,模型,研究者,表征
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
机器之心编辑部七年前，论文《Attention is all you need》提出了 transformer 架构，颠覆了整个深度学习领域。
如今，各家大模型都以 transformer 架构为基础，但 transformer 内部运作原理，仍是一个未解之谜。
去年，transformer 论文作者之一 Llion Jones 宣布创立人工智能公司 Sakana AI。近期，Sakana AI 发表了一篇题为《Transformer Layers as Painters》的论文，探究了预训练 transformer 中的信息流，并针对仅解码器和仅编码器冻结 transformer 模型进行了一系列实验。请注意，该研究没有对预训练模型进行任何类型的微调。论文地址：https://arxiv.org/pdf/2407.09298v1
该研究认为 transformer 的内部机制（特别是中间层）可以类比画家作画流水线来理解。
作画流水线通常是将画布（输入）传递给一系列画家。有些画家擅长画鸟类，而另一些画家则擅长画轮子。每个画家从其下一级画家那里收到画布，然后其决定是否给画作

原文链接：八问八答搞懂Transformer内部运作原理