Deepseek引发的RAG热潮：一周出demo，半年用不好

原标题：Deepseek引发的RAG热潮：一周出demo，半年用不好
文章来源：JioNLP
内容字数：4575字

Deepseek 热潮与 RAG 的：中小团队的 AI 部署困境

近年来，大型语言模型（LLM）如 Deepseek 迅速走红，各行各业的领导者都渴望将其应用于自身业务，以实现 AI 智能化。然而，现实情况往往与理想相差甚远，尤其是在资源有限的中小团队中。本文将深入探讨 Deepseek 部署过程中遇到的挑战，特别是基于检索增强生成 (RAG) 的系统开发中常见的七个失败点，并提供一些可能的改进方向。

1. Deepseek 部署的现实挑战

许多单位仅拥有一台 GPU 服务器，难以部署 Deepseek 的完整版本。即使部署了参数量较小的版本，结合私有数据后，模型的幻觉和重复回答问题依然突出。因此，RAG 技术成为许多团队的关注焦点，希望通过检索相关文档来提升模型的准确性和可靠性。

2. RAG 的

然而，基于一篇题为《Seven Failure Points When Engineering a Retrieval Augmented Generation System》的论文，RAG 系统在实际应用中存在七个主要的失败点：

内容缺失 (FP1): 所需信息不在文档库中，系统却给出不相关的答案。
检索 TopK 内容缺失 (FP2): 答案存在于文档库，但排名靠后未被检索到。
未在上下文中 (FP3): 系统检索到包含答案的文档，但未将其纳入上下文进行答案生成。
未提取 (FP4): 答案在上下文中，但 LLM 无法提取。
错误格式 (FP5): LLM 未按照要求的格式返回答案。
错误的特异性 (FP6): 答案过于笼统或过于具体，无法满足用户需求。
不完整 (FP7): 答案正确但缺少部分信息。

3. 改进方向

为了改善 RAG 系统的性能，论文提出了一些研究方向：

更长的上下文信息 (FP4): 增加 LLM 的上下文窗口大小。
语义缓存 (FP1): 利用缓存技术降低成本和延迟。
RAG 越狱 (FP5-FP7): 通过微调 LLM 来提升其基础能力。
增加元信息 (FP2,FP4): 在检索到的上下文中添加文件名和块编号等元信息。
开源嵌入模型 (FP2-FP7): 利用开源嵌入模型处理小型文本。
RAG 系统持续校准 (FP2-FP7): 持续监控和调整 RAG 系统。
RAG 配置流水线 (FP1,FP2): 建立完善的 RAG 配置流水线。
离线评估技术 (FP2-FP4): 开发更有效的离线评估技术。

4. 总结

Deepseek 等大型语言模型的应用前景广阔，但其部署和应用并非易事。中小团队在利用 RAG 技术构建 AI 系统时，需要充分认识并解决上述七个失败点，才能真正发挥 AI 的价值，避免“一周出 demo，半年用不好”的困境。持续学习和改进是 AI 应用成功的关键。

联系作者

文章来源：JioNLP
作者微信：
作者简介：用数学和程序解构世界。

阅读原文

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Deepseek引发的RAG热潮：一周出demo，半年用不好

Deepseek 热潮与 RAG 的：中小团队的 AI 部署困境

1. Deepseek 部署的现实挑战

2. RAG 的

3. 改进方向

4. 总结

联系作者

稀疏注意力再添一员，华为诺亚推出高效选择注意力架构ESA

Anthropic 首个“混合推理”模型详细拆解

相关文章

暂无评论

ChatGPT

玩虚拟模特？