陈丹琦团队新作：Llama-2上下文扩展至128k，10倍吞吐量仅需1/6内存

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：陈丹琦团队新作：Llama-2上下文扩展至128k，10倍吞吐量仅需1/6内存
关键字：腾讯,模型,上下文,编码器,解码器
文章来源：量子位
内容字数：4553字

内容摘要：

丰色发自凹非寺量子位 | 公众号 QbitAI陈丹琦团队刚刚发布了一种新的LLM上下文窗口扩展方法：
它仅用8k大小的token文档进行训练，就能将Llama-2窗口扩展至128k。
最重要的是，在这个过程中，只需要原来1/6的内存，模型就获得了10倍吞吐量。
除此之外，它还能大大降低训练成本：
用该方法对7B大小的羊驼2进行改造，只需要一块A100就能搞定。
团队表示：
希望这个方法有用、好用，为未来的LLM们提供廉价又有效的长上下文能力。
目前，模型和代码都已在HuggingFace和GitHub上发布。
只需添加两个组件这个方法名叫CEPE，全称“并行编码上下文扩展（Context Expansion with Parallel Encoding）”。
作为轻量级框架，它可用于扩展任何预训练和指令微调模型的上下文窗口。
对于任何预训练的仅解码器语言模型，CEPE通过添加两个小组件来实现扩展：
一个是小型编码器，用于对长上下文进行块编码；
一个是交叉注意力模块，插入到解码器的每一层，用于关注编码器表示。
完整架构如下：
在这个示意图中，编码器模型并行编码上下文的3个额外块，并与

原文链接：陈丹琦团队新作：Llama-2上下文扩展至128k，10倍吞吐量仅需1/6内存