Meta无限长文本大模型来了：参数仅7B，已开源

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：Meta无限长文本大模型来了：参数仅7B，已开源
关键字：报告,注意力,上下文,序列,长上
文章来源：机器之心
内容字数：7261字

内容摘要：

机器之心报道
编辑：泽南、陈萍谷歌之后，Meta 也来卷无限长上下文。Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然存在线性注意力和状态空间模型等次二次解决方案，但从以往的经验来看，它们在预训练效率和下游任务准确性方面表现不佳。
长文本是大语言模型一直在努力的方向。近日，谷歌提出的 Infini-Transformer 引入有效方法，可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入，而不增加内存和计算需求，吸引了人们的关注。
几乎就在同时，Meta 也提出了一种无限长文本技术。论文地址：https://arxiv.org/pdf/2404.08801.pdf
论文标题：MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length
代码：https://github.com/XuezheMax/megalodon
在 4 月 12 日提交的一篇论文中，来自 Meta、南加州大学、CMU、UCSD 等公司、机构引入了 ME

原文链接：Meta无限长文本大模型来了：参数仅7B，已开源