SearchClaw

AI工具13小时前更新 AI工具集
3 0 0

SearchClaw – 中国人民大学推出的 AI 深度研究智能体

SearchClaw:引领智能研究新范式

在中国人民大学信息检索实验室(RUC-NLPIR)的匠心打造下,SearchClaw 隆重问世。这款自托管式的 AI 深度研究智能体,以其直观的 Web 交互界面,为用户开启了前所未有的自动化调研体验。当用户抛出研究问题,SearchClaw 便能启动一系列复杂的智能操作:它会进行多轮次的网络搜索,精准抓取网页信息,深入挖掘学术论文,并将所有搜集到的内容进行智能化的综合提炼,最终输出一份详实且附带精确引用链接的研究报告。

SearchClaw 的核心优势在于其创新的“工具 + 钩子”架构设计,该设计基于 FastAPI 构建,旨在为研究过程的质量提供坚实保障。它不仅支持接入多种主流大型语言模型(LLM)提供商,还具备强大的持久化记忆能力。这使得 SearchClaw 成为科研人员、市场分析师等专业人士进行可溯源、高效率自动化调研的理想选择。

SearchClaw 的核心能力亮点

  • 自驱式多轮研究循环:系统能够自主地、迭代地执行搜索、内容抓取、深度阅读和引用生成等步骤,直至研究结果完全符合预设标准。
  • 全方位信息源整合:SearchClaw 集成了广泛的信息检索渠道,包括但不限于 Google/Serper 搜索引擎、Semantic Scholar/DBLP/arXiv 等学术数据库、NewsAPI/Google News RSS 新闻源,以及微信公众号文章。
  • 深度浏览器集成与渲染:借助 Playwright/CDP 技术,SearchClaw 能够深度渲染 JavaScript 动态页面,甚至支持在用户登录状态下进行网页内容抓取,大大拓宽了信息获取的边界。
  • 智能追问与需求澄清:在研究过程中,系统能够主动向用户提出有针对性的跟进问题,以确保对用户真实需求的精确把握。
  • 研究计划智能分解:对于复杂的研究查询,SearchClaw 能够自动将其拆解成一系列可追踪的子任务,并按部就班地逐一执行,化繁为简。
  • 严谨的质量门禁系统:内置的钩子机制会对研究的引用数量、来源多样性以及答案的完整性进行严格检查,若未达到既定质量标准,系统将自动启动补充研究。
  • 高效的上下文压缩管理:采用双阶段压缩策略,有效管理长会话中的上下文信息,确保其始终处于 LLM 的上下文窗口限制之内。
  • 跨会话的持久化记忆:系统能够自动保存并复用以往研究过程中积累的高质量信息来源、用户偏好以及关键事实,实现知识的持续积累与应用。

如何启动 SearchClaw 的研究之旅

  • 环境准备与依赖安装:首先,克隆项目仓库到本地,然后使用 pip 命令安装所需的依赖包:git clone https://github.com/RUC-NLPIR/SearchClaw.git && pip install -e .
  • 配置关键 API 密钥:为了启用 LLM 和部分搜索源的功能,您需要配置相应的 API 密钥,例如 ANTHROPIC_API_KEYOPENAI_API_KEY。为了获得更优质的搜索体验,强烈建议配置 SERPER_API_KEYJINA_API_KEY
  • 启动 SearchClaw 服务:执行 python -m src.main 命令来启动服务。随后,您可以通过浏览器访问 http://localhost:8000 来与 SearchClaw 进行交互。
  • 接收研究成果:在 Web 界面输入您的研究问题,SearchClaw 将通过 WebSocket 实时地将带有引用链接的综合研究报告流式传输给您。

SearchClaw 的关键要求与配置细节

  • 系统环境要求:SearchClaw 需要 Python 3.11 或更高版本,并支持在 Linux、macOS 和 Windows 操作系统上运行。
  • LLM 模型支持:得益于 litellm 的强大路由能力,SearchClaw 兼容包括 Anthropic、OpenAI、Google Gemini、xAI、阿里通义、字节豆包、智谱 GLM、月之暗面等在内的众多主流 LLM 服务商,同时也支持部署在本地的 vLLM/Ollama 端点。
  • 搜索源的容错机制:在 Serper API 不可用的情况下,系统会自动降级使用 DuckDuckGo 进行抓取;若 Jina 服务不可用,则回退至直接 HTTP 请求。
  • 启用 JS 渲染能力:如需支持 JavaScript 页面渲染,请执行 pip install -e '.[browser]' && playwright install chromium 命令。
  • 增强安全防护:在远程部署时,建议通过设置 SEARCH_CLAW_API_KEY 来配置访问密码,以防止未经授权的访问。
  • 持久化存储选项:SearchClaw 的记忆数据与会话记录默认以 JSON 格式保存在本地文件系统中,方便管理和追溯。

SearchClaw 的核心竞争力剖析

  • 可验证的引用质量与低幻觉风险:SearchClaw 要求多来源引用,并通过内置的门禁系统进行严格校验,有效降低了 AI 生成内容的“幻觉”现象,远优于仅拼接碎片信息的单轮 RAG 模型。
  • 卓越的自主规划与纠错能力:系统能够自动规划和分解复杂任务,并在研究质量未达标时,自发地启动补充研究,整个迭代过程无需人工干预,极大地提升了研究效率。
  • 跨领域异构信息整合的独特性:SearchClaw 是目前唯一一款能够同时覆盖英文学术文献库、中文微信公众号以及实时新闻源的开源研究工具,特别适合需要进行跨境、多维度信息调研的场景。
  • 完全自主托管的隐私保障:所有研究数据均在本地处理,用户可选择本地部署 LLM 端点,完美契合对数据隐私和合规性有严格要求的敏感研究项目。

SearchClaw 的项目资源链接

  • GitHub 仓库:https://github.com/RUC-NLPIR/SearchClaw

SearchClaw 与同类产品的深度对比

对比维度SearchClawPerplexityPaperClaw
部署方式完全自托管,基于本地 FastAPI 服务器运行云端 SaaS 服务,闭源商业产品自托管,专为科研自动化设计
研究深度支持多轮自主研究循环,具备计划分解与质量门禁机制主要为单轮或浅层多轮搜索,直接生成最终答案专注于论文复现与实验过程的自动化
信息来源覆盖网页、学术文献、新闻、微信公众号,支持 CDP 登录抓取网页、学术文献、新闻,中文社交媒体覆盖不足主要聚焦于学术论文及代码仓库
引用机制要求多源引用,并进行数量与多样性校验自动生成引用,但缺乏性校验生成实验报告及代码引用
隐私与控制数据完全本地化,支持本地 LLM 部署数据上传云端,企业版提供增强隐私选项数据本地处理,侧重研究复现的隐私性
交互模式WebSocket 实时流式输出,支持研究过程中的智能追问对话式实时搜索,缺少中途交互确认环节以自动化执行为主,人工干预点相对较少

SearchClaw 的典型应用场景

  • 学术研究文献综述生成:该工具能够自动检索 Semantic Scholar 和 arXiv 等平台上的学术论文,并生成附带精确引用的领域进展摘要,极大地加速了文献梳理过程。
  • 市场竞争对手动态监测:通过自动化追踪新闻源和微信公众号的更新,SearchClaw 可以分析竞争对手的最新动态,并输出带有时间戳的、可追溯的参考依据。
  • 政策法规的深度研究:SearchClaw 能够高效抓取官方网站及智库发布的报告,整合多语言来源的信息,为用户构建详尽的合规性分析报告。
  • 技术选型评估与对比:该工具可以搜索广泛的技术博客、GitHub 社区讨论以及学术论文,全面对比不同技术框架的用户评价和性能数据,为技术决策提供有力支持。
阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...