RAG新突破：块状注意力机制实现超低延迟检索增强

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：RAG新突破：块状注意力机制实现超低延迟检索增强
关键字：模型,准确率,作者,首字,语言
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在工业场景中，往往会利用检索技术来为大语言模型添加一些来自外部数据库的知识文档，从而增强大语言模型的回复可信度。一般来说，RAG 被公认是最有效的为 LLM 注入特定领域知识的方式。
然而，RAG 也有其不足之处。通常来说，在实际应用中，为确保能召回包含正确知识的文档，对于每个用户的查询，会检索多个文档（一般在 5 到 30 个之间），并把这些文档整合到输入提示中供大语言模型处理。这样一来，输入提示的序列长度增加，使得推理效率大幅降低。具体来讲，以首次生成标记的时间（TTFT）来衡量，RAG 大语言模型的推理延迟比非 RAG 大语言模型高很多。
由于数据库中同一文档经常会被不同 query 召回，大家很自然的会想到：是否能够把已经算好的文档表示（KV stat

原文链接：RAG新突破：块状注意力机制实现超低延迟检索增强