你没有看过的全新版本，Transformer数学原理揭秘

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：你没有看过的全新版本，Transformer数学原理揭秘
关键字：粒子,解读,研究者,本文,架构
文章来源：机器之心
内容字数：4636字

内容摘要：

机器之心报道
编辑：赵阳近日，arxiv 上发布了一篇论文，对 Transformer 的数学原理进行全新解读，内容很长，知识很多，十二分建议阅读原文。2017 年，Vaswani 等人发表的《Attention is all you need》成为神经网络架构发展的一个重要里程碑。这篇论文的核心贡献是自注意机制，这是 Transformers 区别于传统架构的创新之处，在其卓越的实用性能中发挥了重要作用。
事实上，这一创新已成为计算机视觉和自然语言处理等领域人工智能进步的关键催化剂，同时在大语言模型的出现中也起到了关键作用。因此，了解 Transformers，尤其是自注意处理数据的机制，是一个至关重要但在很大程度上尚未充分研究的领域。论文地址：https://arxiv.org/pdf/2312.10794.pdf
深度神经网络（DNNs）有一个共同特征：输入数据按照顺序，被逐层处理，形成一个时间离散的动态系统（具体内容可以参考 MIT 出版的《深度学习》，国内也被称为「花书」）。这种观点已被成功地用于将残差网络建模到时间连续的动态系统上，后者被称为神经常微分方程（neural

原文链接：你没有看过的全新版本，Transformer数学原理揭秘