新架构超越Transformer？由CMU和普林斯顿联合推出，实现五倍推理速度提升并全面优化性能

AIGC动态2年前 (2023)发布大数据文摘

AIGC动态欢迎阅读

原标题：新架构超越Transformer？由CMU和普林斯顿联合推出，实现五倍推理速度提升并全面优化性能

文章来源：大数据文摘

内容字数：2624字

内容摘要：大数据文摘受权转载自头部科技作者丨CongerryTransformer被挑战了！2017年6月，8位谷歌研究人员共同发表了一篇神作《Attention is All You Need》。之所以称其为神作，是因为这篇论文提出的一种新的神经网络架构——Transformer，开启了生成式人工智能和大模型的新时代。Transformer架构的优点是可以并行计算能力、捕捉长距离依赖关系、易于扩展和优化。然而，它也存在一个显著的缺点，自注意力机制的计算量会随着上下文长度的增加呈平方级增长，导致计算效率降低。为了解决这个问题，研究人员提出了一些优化方法，如稀疏注意力和分层注意力，以降低计算复杂度。但它们仍然存在一些局限性。例如，稀疏注意力可能导致信息丢失，因为它只关注部分输入元素；而分层注意力可能在处理长距离依赖关系时表现不佳。为了进一步提高计算效率和模型性能，研究人员继续探索其他优化方法。近日，来…

原文链接：点此阅读原文：新架构超越Transformer？由CMU和普林斯顿联合推出，实现五倍推理速度提升并全面优化性能