原标题:Deepseek引发的RAG热潮:一周出demo,半年用不好
文章来源:JioNLP
内容字数:4575字
Deepseek 热潮与 RAG 的:中小团队的 AI 部署困境
近年来,大型语言模型(LLM)如 Deepseek 迅速走红,各行各业的领导者都渴望将其应用于自身业务,以实现 AI 智能化。然而,现实情况往往与理想相差甚远,尤其是在资源有限的中小团队中。本文将深入探讨 Deepseek 部署过程中遇到的挑战,特别是基于检索增强生成 (RAG) 的系统开发中常见的七个失败点,并提供一些可能的改进方向。
1. Deepseek 部署的现实挑战
许多单位仅拥有一台 GPU 服务器,难以部署 Deepseek 的完整版本。即使部署了参数量较小的版本,结合私有数据后,模型的幻觉和重复回答问题依然突出。因此,RAG 技术成为许多团队的关注焦点,希望通过检索相关文档来提升模型的准确性和可靠性。
2. RAG 的
然而,基于一篇题为《Seven Failure Points When Engineering a Retrieval Augmented Generation System》的论文,RAG 系统在实际应用中存在七个主要的失败点:
内容缺失 (FP1): 所需信息不在文档库中,系统却给出不相关的答案。
检索 TopK 内容缺失 (FP2): 答案存在于文档库,但排名靠后未被检索到。
未在上下文中 (FP3): 系统检索到包含答案的文档,但未将其纳入上下文进行答案生成。
未提取 (FP4): 答案在上下文中,但 LLM 无法提取。
错误格式 (FP5): LLM 未按照要求的格式返回答案。
错误的特异性 (FP6): 答案过于笼统或过于具体,无法满足用户需求。
不完整 (FP7): 答案正确但缺少部分信息。
3. 改进方向
为了改善 RAG 系统的性能,论文提出了一些研究方向:
更长的上下文信息 (FP4): 增加 LLM 的上下文窗口大小。
语义缓存 (FP1): 利用缓存技术降低成本和延迟。
RAG 越狱 (FP5-FP7): 通过微调 LLM 来提升其基础能力。
增加元信息 (FP2,FP4): 在检索到的上下文中添加文件名和块编号等元信息。
开源嵌入模型 (FP2-FP7): 利用开源嵌入模型处理小型文本。
RAG 系统持续校准 (FP2-FP7): 持续监控和调整 RAG 系统。
RAG 配置流水线 (FP1,FP2): 建立完善的 RAG 配置流水线。
离线评估技术 (FP2-FP4): 开发更有效的离线评估技术。
4. 总结
Deepseek 等大型语言模型的应用前景广阔,但其部署和应用并非易事。中小团队在利用 RAG 技术构建 AI 系统时,需要充分认识并解决上述七个失败点,才能真正发挥 AI 的价值,避免“一周出 demo,半年用不好”的困境。持续学习和改进是 AI 应用成功的关键。
联系作者
文章来源:JioNLP
作者微信:
作者简介:用数学和程序解构世界。