Meta无限长文本大模型来了:参数仅7B,已开源

AIGC动态7个月前发布 机器之心
26 0 0

Meta无限长文本大模型来了:参数仅7B,已开源

AIGC动态欢迎阅读

原标题:Meta无限长文本大模型来了:参数仅7B,已开源
关键字:报告,注意力,上下文,序列,长上
文章来源:机器之心
内容字数:7261字

内容摘要:


机器之心报道
编辑:泽南、陈萍谷歌之后,Meta 也来卷无限长上下文。Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力和状态空间模型等次二次解决方案,但从以往的经验来看,它们在预训练效率和下游任务准确性方面表现不佳。
长文本是大语言模型一直在努力的方向。近日,谷歌提出的 Infini-Transformer 引入有效方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求,吸引了人们的关注。
几乎就在同时,Meta 也提出了一种无限长文本技术。论文地址:https://arxiv.org/pdf/2404.08801.pdf
论文标题:MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length
代码:https://github.com/XuezheMax/megalodon
在 4 月 12 日提交的一篇论文中,来自 Meta、南加州大学、CMU、UCSD 等公司、机构引入了 ME


原文链接:Meta无限长文本大模型来了:参数仅7B,已开源

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...