NVIDIA把Llama-3的上下文长度扩展16倍，长上下文理解能力超越GPT-4

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：NVIDIA把Llama-3的上下文长度扩展16倍，长上下文理解能力超越GPT-4
关键字：模型,上下文,长度,长上,下文
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | Richard在 Llama-3.1 模型发布之前，开源模型与闭源模型的性能之间一直存在较大的差距，尤其是在长上下文理解能力上。
大模型的上下文处理能力是指模型能够处理的输入和输出 Tokens 的总数。这个长度有一个限制，超过这个限制的内容会被模型忽略。一般而言，开源大模型的上下文长度普遍较短，例如 Llama3 的上下文长度为 8K；而闭源模型的上下文长度则要比开源模型长的多，例如 OpenAI 的 GPT-4 Turbo 支持 128K 的上下文长度。这意味着闭源模型能够一次处理更多的信息，从而在复杂任务中表现出更强的能力。
最近 NVIDIA 研究团队在开源模型 Llama-3 的基础上，通过一系列创新技术，将其上下文长度从原来的 8K 扩展到了 128K，将 Llama-3 的上下文长度扩展到原始的 16 倍。在长上下文理解能力上，扩展之后的 Llama3-ChatQA-2-70B 模型甚至超越了 GPT-4。
研究团队使用经过处理的 SlimPajama 数据集生成了 100 亿个 token 的 128K 长度的数据集。为了适应较长的上下文，研

原文链接：NVIDIA把Llama-3的上下文长度扩展16倍，长上下文理解能力超越GPT-4