AIGC动态欢迎阅读
原标题:新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2
关键字:架构,上下文,模型,数据,任务
文章来源:新智元
内容字数:5525字
内容摘要:
新智元报道编辑:桃子 好困
【新智元导读】Transformer王座即将被取而代之!Meta、USC、CMU和UCSD联合提出了性新架构Megalodon,能够处理无限上下文,在2万亿token训练任务中,性能超越Llama2-7B实现了非凡的效率。继Mamba之后,又一敢于挑战Transformer的架构诞生了!
来自Meta、南加州大学(USC)、CMU和UCSD的研究人员提出了全新的神经网络架构——Megalodon(巨齿鲨)。
这是专为有效处理「无限上下文」长度的LLM预训练,以及推理而设计的架构。
论文地址:https://arxiv.org/abs/2404.08801
我们都知道,Transformer架构个在处理长上下文时,会受到二次复杂度,以及长度外推能力弱的限制。
尽管已有次二次方解决方案(诸如线性注意力,状态空间模型),但它们在预训练效率,甚至下游任务的准确率上,通常还不及Transformer。
Megalodon的出现,就是为了解决无限处理上下文的难题。
同时,它可以同时实现高效训练(减少通信和计算量),以及高效推理(保持恒定的KV缓存)。
值得一提的是
原文链接:新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...