Transformer并非万能：Jamba在效率和吞吐量上大幅超越

AIGC动态1年前 (2024)发布 AI范儿

AIGC动态欢迎阅读

原标题：Transformer并非万能：Jamba在效率和吞吐量上大幅超越
关键字：模型,架构,长上,吞吐量,注意力
文章来源：AI范儿
内容字数：4240字

内容摘要：

点击上方蓝字关注我们“AI21 Labs推出Jamba，一种结合SSM与transformers的新AI模型，旨在提高处理长上下文的效率。Jamba在特定推理任务上超越传统模型，尽管在多任务语言理解上尚未领先。该公司计划提供beta版本，展现其在AI领域的创新潜力。自2017年《注意力是你所需要》的研究论文发表以来，transformers技术便在人工智能领域占据了主导地位。然而，AI21 Labs最近提出的Jamba技术，展示了一种超越传统transformers的新路径。
Transformer的局限性尽管transformers至今在AI领域占据主导地位，但它仍有不足之处。最显著的问题是，随着上下文窗口的扩大，推理过程会相应变慢。AI21 Labs的研究人员指出，transformer的注意力机制随着序列长度的增加而变得复杂，导致吞吐量下降，因为每个token的处理都依赖于它之前的所有序列。这使得处理长上下文的任务难以高效完成。
另一个问题是，transformers在扩展过程中需要大量的内存资源。随着上下文长度的增加，transformers的内存占用也随之增加，这使得在没有充

原文链接：Transformer并非万能：Jamba在效率和吞吐量上大幅超越