AIGC动态欢迎阅读
原标题:Transformer并非万能:Jamba在效率和吞吐量上大幅超越
关键字:模型,架构,长上,吞吐量,注意力
文章来源:AI范儿
内容字数:4240字
内容摘要:
点击上方蓝字关注我们“AI21 Labs推出Jamba,一种结合SSM与transformers的新AI模型,旨在提高处理长上下文的效率。Jamba在特定推理任务上超越传统模型,尽管在多任务语言理解上尚未领先。该公司计划提供beta版本,展现其在AI领域的创新潜力。自2017年《注意力是你所需要》的研究论文发表以来,transformers技术便在人工智能领域占据了主导地位。然而,AI21 Labs最近提出的Jamba技术,展示了一种超越传统transformers的新路径。
Transformer的局限性尽管transformers至今在AI领域占据主导地位,但它仍有不足之处。最显著的问题是,随着上下文窗口的扩大,推理过程会相应变慢。AI21 Labs的研究人员指出,transformer的注意力机制随着序列长度的增加而变得复杂,导致吞吐量下降,因为每个token的处理都依赖于它之前的所有序列。这使得处理长上下文的任务难以高效完成。
另一个问题是,transformers在扩展过程中需要大量的内存资源。随着上下文长度的增加,transformers的内存占用也随之增加,这使得在没有充
原文链接:Transformer并非万能:Jamba在效率和吞吐量上大幅超越
联系作者
文章来源:AI范儿
作者微信:AI_Insights
作者简介:AI领域四大媒体之一。 智能未来,始于Prompt!
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...