延迟交互模型，为什么是下一代RAG的标配？

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：延迟交互模型，为什么是下一代RAG的标配？
关键字：向量,模型,数据,参考文献,编码器
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com张颖峰：英飞流联合创始人，多年搜索、AI、Infra基础设施开发经历，目前正致力于下一代 RAG 核心产品建设。
在 RAG 系统开发中，良好的 Reranker 模型处于必不可少的环节，也总是被拿来放到各类评测当中，这是因为以向量搜索为代表的查询，会面临命中率低的问题，因此需要高级的 Reranker 模型来补救，这样就构成了以向量搜索为粗筛，以 Reranker 模型作精排的两阶段排序架构。
目前排序模型的架构主要有两类：
1. 双编码器。以 BERT 模型为例，它针对查询和文档分别编码，最后再经过一个 Pooling 层，使得输出仅包含一个向量。在查询时的 Ranking 阶段，只需要计算两个向量相似度即可，如下图所示。双编码器既可以用于 Ranking

原文链接：延迟交互模型，为什么是下一代RAG的标配？