清华微软开源全新提示词压缩工具，长度骤降80%！GitHub怒砍3.1K星

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：清华微软开源全新提示词压缩工具，长度骤降80%！GitHub怒砍3.1K星
关键字：研究人员,文本,模型,方法,上下文
文章来源：新智元
内容字数：6463字

内容摘要：

新智元报道编辑：润好困
【新智元导读】最近，清华和微软的研究人员提出了一种全新的方法，能在保证输出质量不变的前提下，将提示词压缩到原始长度的20%！在自然语言处理中，有很多信息其实是重复的。
如果能将提示词进行有效地压缩，某种程度上也相当于扩大了模型支持上下文的长度。
现有的信息熵方法是通过删除某些词或短语来减少这种冗余。
然而，作为依据的信息熵仅仅考虑了文本的单向上下文，进而可能会遗漏对于压缩至关重要的信息；此外，信息熵的计算方式与压缩提示词的真正目的并不完全一致。
为了应对这些挑战，来自清华和微软的研究人员提出了一种全新的数据精炼流程——LLMLingua-2，目的是从大型语言模型（LLM）中提取知识，实现在不丢失关键信息的前提下对提示词进行压缩。
项目在GitHub上已经斩获3.1k星
结果显示，LLMLingua-2可以将文本长度大幅缩减至最初的20%，有效减少了处理时间和成本。
此外，与前一版本LLMLingua以及其他类似技术相比，LLMLingua 2的处理速度提高了3到6倍。
论文地址：https://arxiv.org/abs/2403.12968
在这个过程中，

原文链接：清华微软开源全新提示词压缩工具，长度骤降80%！GitHub怒砍3.1K星