革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2

AIGC动态7个月前发布 新智元
25 0 0

革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2

AIGC动态欢迎阅读

原标题:革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2
关键字:架构,上下文,模型,数据,任务
文章来源:新智元
内容字数:5525字

内容摘要:


新智元报道编辑:桃子 好困
【新智元导读】Transformer王座即将被取而代之!Meta、USC、CMU和UCSD联合提出了革命性新架构Megalodon,能够处理无限上下文,在2万亿token训练任务中,性能超越Llama2-7B实现了非凡的效率。继Mamba之后,又一敢于挑战Transformer的架构诞生了!
来自Meta、南加州大学(USC)、CMU和UCSD的研究人员提出了全新的神经网络架构——Megalodon(巨齿鲨)。
这是专为有效处理「无限上下文」长度的LLM预训练,以及推理而设计的架构。
论文地址:https://arxiv.org/abs/2404.08801
我们都知道,Transformer架构个在处理长上下文时,会受到二次复杂度,以及长度外推能力弱的限制。
尽管已有次二次方解决方案(诸如线性注意力,状态空间模型),但它们在预训练效率,甚至下游任务的准确率上,通常还不及Transformer。
Megalodon的出现,就是为了解决无限处理上下文的难题。
同时,它可以同时实现高效训练(减少通信和计算量),以及高效推理(保持恒定的KV缓存)。
值得一提的是


原文链接:革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...