AIGC动态欢迎阅读
原标题:Meta无限长文本大模型来了:参数仅7B,已开源
关键字:报告,注意力,上下文,序列,长上
文章来源:机器之心
内容字数:7261字
内容摘要:
机器之心报道
编辑:泽南、陈萍谷歌之后,Meta 也来卷无限长上下文。Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力和状态空间模型等次二次解决方案,但从以往的经验来看,它们在预训练效率和下游任务准确性方面表现不佳。
长文本是大语言模型一直在努力的方向。近日,谷歌提出的 Infini-Transformer 引入有效方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求,吸引了人们的关注。
几乎就在同时,Meta 也提出了一种无限长文本技术。论文地址:https://arxiv.org/pdf/2404.08801.pdf
论文标题:MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length
代码:https://github.com/XuezheMax/megalodon
在 4 月 12 日提交的一篇论文中,来自 Meta、南加州大学、CMU、UCSD 等公司、机构引入了 ME
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...