NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4

NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4

AIGC动态欢迎阅读

原标题:NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4
关键字:模型,上下文,长度,长上,下文
文章来源:夕小瑶科技说
内容字数:0字

内容摘要:


夕小瑶科技说 原创作者 | Richard在 Llama-3.1 模型发布之前,开源模型与闭源模型的性能之间一直存在较大的差距,尤其是在长上下文理解能力上。
大模型的上下文处理能力是指模型能够处理的输入和输出 Tokens 的总数。这个长度有一个限制,超过这个限制的内容会被模型忽略。一般而言,开源大模型的上下文长度普遍较短,例如 Llama3 的上下文长度为 8K;而闭源模型的上下文长度则要比开源模型长的多,例如 OpenAI 的 GPT-4 Turbo 支持 128K 的上下文长度。这意味着闭源模型能够一次处理更多的信息,从而在复杂任务中表现出更强的能力。
最近 NVIDIA 研究团队在开源模型 Llama-3 的基础上,通过一系列创新技术,将其上下文长度从原来的 8K 扩展到了 128K,将 Llama-3 的上下文长度扩展到原始的 16 倍。在长上下文理解能力上,扩展之后的 Llama3-ChatQA-2-70B 模型甚至超越了 GPT-4。
研究团队使用经过处理的 SlimPajama 数据集生成了 100 亿个 token 的 128K 长度的数据集。为了适应较长的上下文,研


原文链接:NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4

联系作者

文章来源:夕小瑶科技说
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...