新架构掀翻Transformer！无限上下文处理，2万亿token碾压Llama 2

AIGC动态2年前 (2024)发布新智元

革命新架构掀翻Transformer！无限上下文处理，2万亿token碾压Llama 2

AIGC动态欢迎阅读

原标题：新架构掀翻Transformer！无限上下文处理，2万亿token碾压Llama 2
关键字：架构,上下文,模型,数据,任务
文章来源：新智元
内容字数：5525字

内容摘要：

新智元报道编辑：桃子好困
【新智元导读】Transformer王座即将被取而代之！Meta、USC、CMU和UCSD联合提出了性新架构Megalodon，能够处理无限上下文，在2万亿token训练任务中，性能超越Llama2-7B实现了非凡的效率。继Mamba之后，又一敢于挑战Transformer的架构诞生了！
来自Meta、南加州大学（USC）、CMU和UCSD的研究人员提出了全新的神经网络架构——Megalodon（巨齿鲨）。
这是专为有效处理「无限上下文」长度的LLM预训练，以及推理而设计的架构。
论文地址：https://arxiv.org/abs/2404.08801
我们都知道，Transformer架构个在处理长上下文时，会受到二次复杂度，以及长度外推能力弱的限制。
尽管已有次二次方解决方案（诸如线性注意力，状态空间模型），但它们在预训练效率，甚至下游任务的准确率上，通常还不及Transformer。
Megalodon的出现，就是为了解决无限处理上下文的难题。
同时，它可以同时实现高效训练（减少通信和计算量），以及高效推理（保持恒定的KV缓存）。
值得一提的是

原文链接：新架构掀翻Transformer！无限上下文处理，2万亿token碾压Llama 2