SearchClaw

SearchClaw – 中国人民大学推出的 AI 深度研究智能体

SearchClaw：引领智能研究新范式

在中国人民大学信息检索实验室（RUC-NLPIR）的匠心打造下，SearchClaw 隆重问世。这款自托管式的 AI 深度研究智能体，以其直观的 Web 交互界面，为用户开启了前所未有的自动化调研体验。当用户抛出研究问题，SearchClaw 便能启动一系列复杂的智能操作：它会进行多轮次的网络搜索，精准抓取网页信息，深入挖掘学术论文，并将所有搜集到的内容进行智能化的综合提炼，最终输出一份详实且附带精确引用链接的研究报告。

SearchClaw 的核心优势在于其创新的“工具 + 钩子”架构设计，该设计基于 FastAPI 构建，旨在为研究过程的质量提供坚实保障。它不仅支持接入多种主流大型语言模型（LLM）提供商，还具备强大的持久化记忆能力。这使得 SearchClaw 成为科研人员、市场分析师等专业人士进行可溯源、高效率自动化调研的理想选择。

SearchClaw 的核心能力亮点

自驱式多轮研究循环：系统能够自主地、迭代地执行搜索、内容抓取、深度阅读和引用生成等步骤，直至研究结果完全符合预设标准。
全方位信息源整合：SearchClaw 集成了广泛的信息检索渠道，包括但不限于 Google/Serper 搜索引擎、Semantic Scholar/DBLP/arXiv 等学术数据库、NewsAPI/Google News RSS 新闻源，以及微信公众号文章。
深度浏览器集成与渲染：借助 Playwright/CDP 技术，SearchClaw 能够深度渲染 JavaScript 动态页面，甚至支持在用户登录状态下进行网页内容抓取，大大拓宽了信息获取的边界。
智能追问与需求澄清：在研究过程中，系统能够主动向用户提出有针对性的跟进问题，以确保对用户真实需求的精确把握。
研究计划智能分解：对于复杂的研究查询，SearchClaw 能够自动将其拆解成一系列可追踪的子任务，并按部就班地逐一执行，化繁为简。
严谨的质量门禁系统：内置的钩子机制会对研究的引用数量、来源多样性以及答案的完整性进行严格检查，若未达到既定质量标准，系统将自动启动补充研究。
高效的上下文压缩管理：采用双阶段压缩策略，有效管理长会话中的上下文信息，确保其始终处于 LLM 的上下文窗口限制之内。
跨会话的持久化记忆：系统能够自动保存并复用以往研究过程中积累的高质量信息来源、用户偏好以及关键事实，实现知识的持续积累与应用。

如何启动 SearchClaw 的研究之旅

环境准备与依赖安装：首先，克隆项目仓库到本地，然后使用 pip 命令安装所需的依赖包：git clone https://github.com/RUC-NLPIR/SearchClaw.git && pip install -e .
配置关键 API 密钥：为了启用 LLM 和部分搜索源的功能，您需要配置相应的 API 密钥，例如 ANTHROPIC_API_KEY 或 OPENAI_API_KEY。为了获得更优质的搜索体验，强烈建议配置 SERPER_API_KEY 和 JINA_API_KEY。
启动 SearchClaw 服务：执行 python -m src.main 命令来启动服务。随后，您可以通过浏览器访问 http://localhost:8000 来与 SearchClaw 进行交互。
接收研究成果：在 Web 界面输入您的研究问题，SearchClaw 将通过 WebSocket 实时地将带有引用链接的综合研究报告流式传输给您。

SearchClaw 的关键要求与配置细节

系统环境要求：SearchClaw 需要 Python 3.11 或更高版本，并支持在 Linux、macOS 和 Windows 操作系统上运行。
LLM 模型支持：得益于 litellm 的强大路由能力，SearchClaw 兼容包括 Anthropic、OpenAI、Google Gemini、xAI、阿里通义、字节豆包、智谱 GLM、月之暗面等在内的众多主流 LLM 服务商，同时也支持部署在本地的 vLLM/Ollama 端点。
搜索源的容错机制：在 Serper API 不可用的情况下，系统会自动降级使用 DuckDuckGo 进行抓取；若 Jina 服务不可用，则回退至直接 HTTP 请求。
启用 JS 渲染能力：如需支持 JavaScript 页面渲染，请执行 pip install -e '.[browser]' && playwright install chromium 命令。
增强安全防护：在远程部署时，建议通过设置 SEARCH_CLAW_API_KEY 来配置访问密码，以防止未经授权的访问。
持久化存储选项：SearchClaw 的记忆数据与会话记录默认以 JSON 格式保存在本地文件系统中，方便管理和追溯。

SearchClaw 的核心竞争力剖析

可验证的引用质量与低幻觉风险：SearchClaw 要求多来源引用，并通过内置的门禁系统进行严格校验，有效降低了 AI 生成内容的“幻觉”现象，远优于仅拼接碎片信息的单轮 RAG 模型。
卓越的自主规划与纠错能力：系统能够自动规划和分解复杂任务，并在研究质量未达标时，自发地启动补充研究，整个迭代过程无需人工干预，极大地提升了研究效率。
跨领域异构信息整合的独特性：SearchClaw 是目前唯一一款能够同时覆盖英文学术文献库、中文微信公众号以及实时新闻源的开源研究工具，特别适合需要进行跨境、多维度信息调研的场景。
完全自主托管的隐私保障：所有研究数据均在本地处理，用户可选择本地部署 LLM 端点，完美契合对数据隐私和合规性有严格要求的敏感研究项目。

SearchClaw 的项目资源链接

GitHub 仓库：https://github.com/RUC-NLPIR/SearchClaw

SearchClaw 与同类产品的深度对比

对比维度	SearchClaw	Perplexity	PaperClaw
部署方式	完全自托管，基于本地 FastAPI 服务器运行	云端 SaaS 服务，闭源商业产品	自托管，专为科研自动化设计
研究深度	支持多轮自主研究循环，具备计划分解与质量门禁机制	主要为单轮或浅层多轮搜索，直接生成最终答案	专注于论文复现与实验过程的自动化
信息来源覆盖	网页、学术文献、新闻、微信公众号，支持 CDP 登录抓取	网页、学术文献、新闻，中文社交媒体覆盖不足	主要聚焦于学术论文及代码仓库
引用机制	要求多源引用，并进行数量与多样性校验	自动生成引用，但缺乏性校验	生成实验报告及代码引用
隐私与控制	数据完全本地化，支持本地 LLM 部署	数据上传云端，企业版提供增强隐私选项	数据本地处理，侧重研究复现的隐私性
交互模式	WebSocket 实时流式输出，支持研究过程中的智能追问	对话式实时搜索，缺少中途交互确认环节	以自动化执行为主，人工干预点相对较少

SearchClaw 的典型应用场景

学术研究文献综述生成：该工具能够自动检索 Semantic Scholar 和 arXiv 等平台上的学术论文，并生成附带精确引用的领域进展摘要，极大地加速了文献梳理过程。
市场竞争对手动态监测：通过自动化追踪新闻源和微信公众号的更新，SearchClaw 可以分析竞争对手的最新动态，并输出带有时间戳的、可追溯的参考依据。
政策法规的深度研究：SearchClaw 能够高效抓取官方网站及智库发布的报告，整合多语言来源的信息，为用户构建详尽的合规性分析报告。
技术选型评估与对比：该工具可以搜索广泛的技术博客、GitHub 社区讨论以及学术论文，全面对比不同技术框架的用户评价和性能数据，为技术决策提供有力支持。

阅读原文