符尧大佬一作发文，仅改训练数据，就让LLaMa-2上下文长度扩展20倍！

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：符尧大佬一作发文，仅改训练数据，就让LLaMa-2上下文长度扩展20倍！
关键字：长上,模型,下文,长度,数据
文章来源：夕小瑶科技说
内容字数：8378字

内容摘要：

夕小瑶科技说原创作者 | Tscom、Python引言：探索语言模型的长上下文能力近日，谷歌推出了Gemini Pro 1.5，将上下文窗口长度扩展到100万个tokens，目前领先世界。而其他语言模型也正在不断探索长上下文能力，也就是模型处理和理解超出其训练时所见上下文长度的能力。例如，一个模型可能在训练时只看到了每个输入中的4K tokens，但在实际应用中，我们希望它能够处理长达128K tokens的文档。这种能力对于多种应用场景至关重要，如多文档问答、代码库级别的代码理解、长历史对话建模，以及语言模型驱动的自主代理等。
然而，由于注意力机制的二次复杂度，将模型的上下文长度从4K扩展到128K看上去似乎是不切实际的。本文将介绍一种数据工程方法，通过在适当的数据混合上轻量级的持续预训练，来扩展语言模型的上下文长度至128K。
论文标题：Data Engineering for Scaling Language Models to 128K Context
公众号「夕小瑶科技说」后台回复“128K”获取论文PDF！
长上下文建模的重要性1. 128K上下文窗口的新应用场景
随着语

原文链接：符尧大佬一作发文，仅改训练数据，就让LLaMa-2上下文长度扩展20倍！