DeepSearch 与 DeepResearch 的设计和实现

在 Deepseek-R1 之后,我们对下一代搜索技术的思考。

DeepSearch 与 DeepResearch 的设计和实现

原标题:DeepSearch 与 DeepResearch 的设计和实现
文章来源:人工智能学家
内容字数:17880字

深度搜索(Deep Search)和深度研究(DeepResearch)的崛起:2025年搜索新标准

本文总结了深度搜索(Deep Search)和深度研究(DeepResearch)的技术原理、实现细节以及两者之间的区别,并对未来搜索技术发展趋势进行了展望。

  1. Deep Search 的核心概念及实现

    Deep Search并非全新概念,其本质是迭代式的检索增强生成(RAG)或多跳问答。其核心是通过搜索、阅读和推理三个环节的循环往复,直到找到最佳答案或耗尽资源。与传统的RAG系统不同,Deep Search执行多次迭代,需要明确的停止条件(例如token限制或失败尝试次数)。它可以被视为一个配备网络工具的LLM Agent,通过分析观察结果和操作记录来决定下一步行动。

    Deep Search 的实现依赖于:长上下文LLM、推理模型(如Deepseek-r1)、查询重写机制(利用embedding模型进行去重)、网页抓取和内容处理(Jina Reader)、内存管理、答案评估机制以及预算控制策略。其中,FIFO队列用于管理知识空白问题,优先处理能够构建必要知识基础的子问题。

  2. DeepResearch:基于Deep Search 的长篇研究报告生成

    DeepResearch是在Deep Search基础上构建的用于生成长篇研究报告的框架。它从创建目录开始,系统性地将 DeepSearch 应用于报告的每个部分,最终整合所有章节,并进行整体连贯性修订。DeepResearch 的成功依赖于高质量的Deep Search引擎以及对报告结构、可视化元素和语言流畅性的有效控制。

    文章作者分享了他们过去失败的“Research”项目的经验教训,包括报告质量、搜索结果可靠性、可读性和冗余问题等,这些经验促进了他们对DeepSearch和DeepResearch的改进。

  3. Deep Search vs DeepResearch

    Deep Search是DeepResearch的构建模块,DeepResearch则更关注高质量长篇研究报告的生成,涉及更复杂的系统工程,包括章节结构、可视化、语言流畅性等方面,这些与底层搜索功能并非直接相关。因此,文章作者更重视Deep Search 的发展。

  4. Deep Search 的关键技术及实现细节

    文章详细介绍了Deep Search 的核心循环机制,包括系统提示词的设计(使用XML标签)、知识空白问题的处理(FIFO队列)、查询重写、网页内容爬取、内存管理、答案评估和预算控制等。其中,预算控制不仅是为了节省成本,更是为了鼓励更深入的思考,并避免过早返回答案, “野兽模式”确保在预算耗尽前给出答案。

  5. 对未来搜索技术发展趋势的展望

    文章总结了Deep Search 开发过程中的经验教训,认为长上下文LLM、查询扩展、网页搜索和阅读能力是必不可少的要素。向量模型在去重任务上表现出色,而Agent框架则显得不必要。作者建议拥抱LLM的原生能力,避免被框架束缚,并强调多语言支持的重要性。


联系作者

文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...