AIGC动态欢迎阅读
原标题:符尧大佬一作发文,仅改训练数据,就让LLaMa-2上下文长度扩展20倍!
关键字:长上,模型,下文,长度,数据
文章来源:夕小瑶科技说
内容字数:8378字
内容摘要:
夕小瑶科技说 原创作者 | Tscom、Python引言:探索语言模型的长上下文能力近日,谷歌推出了Gemini Pro 1.5,将上下文窗口长度扩展到100万个tokens,目前领先世界。而其他语言模型也正在不断探索长上下文能力,也就是模型处理和理解超出其训练时所见上下文长度的能力。例如,一个模型可能在训练时只看到了每个输入中的4K tokens,但在实际应用中,我们希望它能够处理长达128K tokens的文档。这种能力对于多种应用场景至关重要,如多文档问答、代码库级别的代码理解、长历史对话建模,以及语言模型驱动的自主代理等。
然而,由于注意力机制的二次复杂度,将模型的上下文长度从4K扩展到128K看上去似乎是不切实际的。本文将介绍一种数据工程方法,通过在适当的数据混合上轻量级的持续预训练,来扩展语言模型的上下文长度至128K。
论文标题:Data Engineering for Scaling Language Models to 128K Context
公众号「夕小瑶科技说」后台回复“128K”获取论文PDF!
长上下文建模的重要性1. 128K上下文窗口的新应用场景
随着语
原文链接:符尧大佬一作发文,仅改训练数据,就让LLaMa-2上下文长度扩展20倍!
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI一线开发者、互联网中高管和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备行业嗅觉与报道深度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...