DeepMind升级Transformer,前向通过FLOPs最多可降一半

DeepMind升级Transformer,前向通过FLOPs最多可降一半

AIGC动态欢迎阅读

原标题:DeepMind升级Transformer,前向通过FLOPs最多可降一半
关键字:路由,路径,权重,模块,模型
文章来源:机器之心
内容字数:8039字

内容摘要:


机器之心报道
编辑:Panda W引入混合深度,DeepMind 新设计可大幅提升 Transformer 效率。Transformer 的重要性无需多言,目前也有很多研究团队致力于改进这种变革性技术,其中一个重要的改进方向是提升 Transformer 的效率,比如让其具备自适应计算能力,从而可以节省下不必要的计算。
正如不久前 Transformer 架构的提出之一、NEAR Protocol 联合创始人 Illiya Polosukhin 在与黄仁勋的对话中说到的那样:「自适应计算是接下来必须出现的。我们要关注,在特定问题上具体要花费多少计算资源。」其实人类就天生具备自适应计算的能力 —— 人在解决各种不同的问题时,会自然地分配不同的时间和精力。
语言建模也应如此,为了得到准确的预测结果,并不需要为所有 token 和序列都投入同样的时间或资源。但是,Transformer 模型在一次前向传播中却会为每个 token 花费同等的计算量。这不禁让人哀叹:大部分计算都被浪费了!理想情况下,如果可以不执行非必要的计算,就可以降低 Transformer 的计算预算。
条件式计算这种技术


原文链接:DeepMind升级Transformer,前向通过FLOPs最多可降一半

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...