DeepMind升级Transformer，前向通过FLOPs最多可降一半

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：DeepMind升级Transformer，前向通过FLOPs最多可降一半
关键字：路由,路径,权重,模块,模型
文章来源：机器之心
内容字数：8039字

内容摘要：

机器之心报道
编辑：Panda W引入混合深度，DeepMind 新设计可大幅提升 Transformer 效率。Transformer 的重要性无需多言，目前也有很多研究团队致力于改进这种变革性技术，其中一个重要的改进方向是提升 Transformer 的效率，比如让其具备自适应计算能力，从而可以节省下不必要的计算。
正如不久前 Transformer 架构的提出之一、NEAR Protocol 联合创始人 Illiya Polosukhin 在与黄仁勋的对话中说到的那样：「自适应计算是接下来必须出现的。我们要关注，在特定问题上具体要花费多少计算资源。」其实人类就天生具备自适应计算的能力 —— 人在解决各种不同的问题时，会自然地分配不同的时间和精力。
语言建模也应如此，为了得到准确的预测结果，并不需要为所有 token 和序列都投入同样的时间或资源。但是，Transformer 模型在一次前向传播中却会为每个 token 花费同等的计算量。这不禁让人哀叹：大部分计算都被浪费了！理想情况下，如果可以不执行非必要的计算，就可以降低 Transformer 的计算预算。
条件式计算这种技术

原文链接：DeepMind升级Transformer，前向通过FLOPs最多可降一半