REFRAG – Meta推出的高效解码框架
REFRAG:Meta超级智能实验室推出的性RAG解码框架,通过“压缩、感知、扩展”三步流程,大幅提升LLM处理外部知识的效率与质量,实现首字生成延迟最高加速30倍,同时等效扩展上下文窗口16倍。
REFRAG是Meta超级智能实验室为检索增强生成(RAG)任务量身打造的高效解码框架。该框架巧妙地运用“压缩(Compress)、感知(Sense)、扩展(Expand)”的创新流程,旨在革新大型语言模型(LLM)整合外部知识的方式。
其核心在于将检索到的冗长文本切分成多个的“块”,并为每个“块”生成精炼的向量表示,从而显著缩短输入序列的长度,大幅降低计算开销。通过强化学习策略网络,REFRAG能够智能地识别并保留至关重要的文本片段的原始形态,确保关键信息不被压缩所淹没。这一优化过程不仅将首字生成延迟(TTFT)提升了高达30倍,更在保持甚至超越完整上下文模型性能的同时,有效解决了LLM在处理长上下文时的效率瓶颈。
REFRAG的核心优势
极致的速度提升:REFRAG通过精密的解码优化,能够实现高达30倍的首字生成速度飞跃,为实时交互应用带来前所未有的响应速度。
卓越的性能保证:在加速的同时,REFRAG在困惑度以及多项下游任务的准确性上均能与使用完整上下文的模型媲美,甚至在部分场景下表现更佳,确保了生成内容的质量。
无缝的上下文扩展:得益于其创新的压缩技术,REFRAG能够在相同的计算资源下处理更多的上下文信息,其等效上下文窗口扩大了16倍,极大地增强了模型处理长篇内容的综合能力。
广泛的应用适配性:REFRAG不仅适用于核心的RAG任务,还能在多轮对话、长文档摘要等需要深度理解和处理长上下文的场景中发挥巨大作用,展现出其强大的通用性。
REFRAG的技术基石
压缩(Compress):REFRAG将冗长的参考资料分割成若干“块”,并为每个“块”生成紧凑的向量表示(“块嵌入”)。此举有效缩减了输入序列,降低了后续计算量,并避免了重复的编码计算。
感知(Sense):通过训练一个基于强化学习(RL)的策略网络,REFRAG能够分析所有“块嵌入”以及用户查询,精准判断哪些文本块承载着核心信息,需要以原始文本形式呈现给LLM,从而杜绝关键信息的遗漏。
扩展(Expand):最终输入给主LLM的是一个混合序列,其中包含大部分上下文的“块嵌入”以及少量被识别为关键的“原始文本块”。LLM基于这些优化后的输入生成答案,既保留了核心信息,又最大限度地减轻了计算负担。
利用注意力机制的稀疏性:REFRAG的创新基于一个关键观察:在RAG任务中,LLM的注意力机制呈现出一种“块对角”的稀疏模式,即注意力主要集中于单个文档内部以及文档与用户问题之间的关联。REFRAG通过选择性地压缩和扩展上下文,有效减少了不必要的计算,显著提升了效率。
REFRAG的创新之路
arXiv技术论文:深入了解REFRAG的理论基础与实验验证,请访问:https://arxiv.org/pdf/2509.01092
REFRAG的广阔应用前景
检索增强生成(RAG):在需要快速、精准答案的场景,如智能客服、在线问答系统等,REFRAG能显著提升首字生成速度,优化用户体验。
多轮对话系统:REFRAG能够高效处理长对话历史,确保对话的连贯性与准确性,从而提升用户在多轮交互中的整体感受。
长文档摘要:对于新闻、学术论文等长文本,REFRAG能够高效处理并生成高质量的摘要,是内容自动化处理的得力助手。
知识图谱问答:REFRAG能够与知识图谱协同工作,快速检索相关知识并生成准确答案,是知识图谱驱动的智能问答系统的理想选择。
内容创作辅助:在内容创作领域,REFRAG能够快速生成创意文本,辅助作者进行构思和写作,极大地提高了创作效率。