camofox-browser

AI工具32分钟前更新 AI工具集
0 0 0

camofox-browser – 开源 AI Agent 反检测浏览器

Camofox Browser 是一款创新的开源 AI Agent 反检测浏览器服务器,它以 Camoufox(一个经过深度 C++ 级优化和指纹魔改的 Firefox 版本)为基础。该浏览器通过 REST API 为 AI 提供高度精炼的网页快照,其体积相比原始 HTML 缩减了惊人的 90% 以上。更重要的是,它能够生成稳定且易于 AI 理解的元素引用,例如 e1e2 等,从而使 AI 能够直接、高效地与网页元素进行交互。

Camofox Browser 的核心功能

  • 底层反检测浏览技术: Camofox Browser 在 C++ 层深度伪造各类浏览器指纹信息,包括硬件并发数、WebGL 渲染器、AudioContext、屏幕几何信息以及 WebRTC 等。这种底层级别的伪装使得 JavaScript 层面的检测几乎无法识破,从而有效绕过 Cloudflare 等主流反爬验证机制。
  • 精炼的网页快照: 该浏览器将复杂的原始 HTML 文档提炼成一种带有编号标签的“可访问性快照”。这种快照不仅体积大幅缩小,而且保留了页面的关键语义结构,AI 可以直接通过 e1e2 等稳定引用与页面上的特定元素进行交互,极大地简化了 AI 的操作流程。
  • 便捷的会话管理: Camofox Browser 支持导入 Netscape 格式的 Cookie 文件,实现无缝的免登录访问。同时,用户的会话信息,包括 Cookie 和 localStorage,会被自动持久化到本地,确保在重启后依然保持登录状态,无需重复登录。
  • 强大的搜索宏指令: 内置了超过 15 种主流平台的搜索宏指令,例如 @google_search@reddit_search@youtube_search 等。用户只需一行命令,即可直达目标搜索结果页面。特别值得一提的是,Reddit 搜索宏可以直接返回结构化的 JSON 数据,进一步提升了 AI 处理信息的效率。
  • 智能代理与地理位置匹配: 该浏览器支持住宅代理和 Backconnect 旋转代理。它能够根据代理的出口 IP 地址,自动匹配并设置浏览器的时区、语言和地理坐标,从而维持指纹的一致性,避免因代理 IP 变化而引发的检测问题。
  • YouTube 字幕快速提取: 集成了 yt-dlp 工具,能够快速提取任意 YouTube 视频的字幕,无需额外的 API Key。它还支持多语言字幕的筛选,为内容分析提供了便利。
  • 可视化交互登录: 通过 noVNC 技术,用户可以在浏览器中手动完成复杂网站的交互式登录过程。完成登录后,可以将存储的状态导出,供后续的 AI 自动化任务复用,解决了 AI 完成复杂登录的难题。
  • 详细的会话追踪与调试: 支持按会话开启 Playwright 追踪功能,生成包含截图、DOM 快照和网络请求的 .zip 文件。这为事后排查问题提供了详尽的记录,便于定位和解决自动化过程现的异常。
  • 轻量级部署与弹性伸缩: Camofox Browser 的内存占用非常低,空闲时仅需约 40MB。它支持 Docker、Fly.io、Railway 等多种平台的一键部署。同时,采用了浏览器引擎的懒加载和空闲时自动关闭机制,有效降低了资源的常驻占用。

Camofox Browser 的技术实现原理

  • C++ 层面的指纹: Camoufox 通过修改 Firefox 的源代码,在 C++ 层直接篡改 navigator.hardwareConcurrency、WebGL 渲染字符串、AudioContext 指纹、屏幕分辨率以及 WebRTC 等关键属性。这种方式确保了反爬系统在 JavaScript 代码执行之前,就已经接收到伪造的参数,从而提高了的成功率。
  • Accessibility Tree 的快照生成: 该浏览器利用 Playwright 的 accessibility 树 API 来提取页面的语义结构。生成的快照是文本化的,并且包含了稳定的元素引用,这种方式有效替代了原始 DOM,并将其传递给大型语言模型(LLM),极大地提高了 AI 处理页面的效率。
  • Playwright 浏览器上下文隔离: 每个用户或任务都对应一个的 BrowserContext。这意味着 Cookie、localStorage、缓存等信息都是完全隔离的,有效避免了不同会话之间的信息串扰,保证了数据的性和安全性。
  • 按需加载与空闲回收机制: Camofox Browser 在首次接收到请求时才会启动 Camoufox 引擎,其初始内存占用约为 300MB。一旦在 5 分钟内没有活跃的会话,浏览器进程会自动关闭,从而显著降低了系统的常驻资源消耗。
  • 结构化的 JSON 日志输出: 所有请求和响应都会输出为单行 JSON 对象,并包含 reqId 字段。这使得在分布式环境下,日志的聚合和链路追踪变得更加便捷和高效。

Camofox Browser 的使用指南

  • 安装必要的依赖: 在项目目录中执行 npm install @askjo/camofox-browser 命令进行安装。首次安装时,系统会自动下载约 300MB 的 Camofox 引擎文件。
  • 本地启动服务: 克隆项目仓库后,运行 npm install && npm start 命令即可启动本地服务。服务默认在 http://localhost:9377
  • 生产环境的安全配置: 为了增强安全性,在生产环境中,需要生成一个 32 位的十六进制密钥,并将其设置为环境变量 CAMOFOX_ACCESS_KEY。所有后续的请求都必须携带 Authorization: Bearer <key> 头部信息进行身份验证。
  • 导入 Cookie 实现免登录: 将从浏览器导出的 Netscape 格式 Cookie 文件放置在 ~/.camofox/cookies/ 目录下。之后,可以通过 API 调用或 OpenClaw 插件的导入工具,将 Cookie 注入到相应的会话中。
  • 创建标签页并获取网页快照:/tabs 端点发送 POST 请求,即可创建一个新的标签页。随后,通过调用 /tabs/:id/snapshot 端点,可以获取包含 e1e2 等稳定引用的结构化页面摘要信息。
  • 执行页面交互操作: 可以通过向 /tabs/:id/click/tabs/:id/type 端点发送请求,传入元素引用编号以及需要输入的文本内容,从而实现点击和输入等页面交互操作。
  • 利用搜索宏进行导航: 调用 /tabs/:id/navigate 端点,并传入 "macro": "@google_search""query": "关键词" 参数,即可直接导航到搜索结果页面,无需手动构建 URL。
  • Docker 部署: 在项目根目录下执行 make up 命令。Makefile 会自动检测 CPU 架构并预先下载所需的二进制文件,整个构建和启动过程通常在 30 秒内完成。

Camofox Browser 的突出优势

  • 高效规避主流反爬与验证: 由于其指纹伪造能力在 C++ 底层实现,Camofox Browser 能够稳定地绕过 Google、Cloudflare 等平台的机器人检测,显著减少触发人机验证的频率。
  • 极高的 Token 效率: 生成的结构化快照相比原始 HTML 文件,体积缩减了 90% 以上。这极大地降低了大型语言模型(LLM)的上下文窗口占用,从而有效节省了 API 调用成本。
  • 稳定可靠的元素引用: 即使页面布局发生微小调整,通过 accessibility 树生成的 e1e2 等元素引用依然能够保持有效。这大大降低了 AI Agent 因页面 DOM 变化而导致操作失败的可能性。
  • 开箱即用的搜索能力: 内置的 15+ 种搜索宏覆盖了绝大多数主流信息源,AI Agent 无需自行构建搜索 URL 或解析页面内容。特别是对于 Reddit 等平台,直接返回结构化 JSON 数据,极大地提升了数据处理的便捷性。
  • 生产级安全模型: 默认情况下,Cookie 导入功能是关闭的(需要 CAMOFOX_API_KEY 才能启用)。它支持全局 Access Key 鉴权,并具备路径遍历防护能力。所有敏感数据都在运行时注入,确保了零硬编码密钥,符合生产环境的安全要求。

Camofox Browser 的项目地址

  • GitHub 仓库: https://github.com/jo-inc/camofox-browser

Camofox Browser 与同类竞品的比较

维度Camofox BrowserPuppeteer / PlaywrightSelenium WebDriver
反检测能力C++ 层级指纹伪造,原生绕过 Cloudflare 与 Google 验证通常需要额外安装 stealth 插件,但插件本身可能成为新的检测点不具备原生反检测功能,通常需要配合第三方指纹浏览器或代理池使用
AI 交互效率结构化 accessibility 快照,体积缩减 90%+,提供稳定元素引用返回完整的 HTML 文档,需要自行解析或通过截图交给 AI 识别返回完整的 HTML 文档,解析成本较高,缺乏原生的元素编号机制
部署资源占用空闲状态下约 40MB 内存占用,支持懒加载与空闲时自动关闭需要常驻 Chromium 进程,内存占用相对较高需要常驻浏览器实例,资源开销较大
Cookie/会话管理内置 Netscape Cookie 导入、会话持久化以及 VNC 可视化交互登录功能需要手动编写代码来注入 Cookie 和管理上下文需要手动配置浏览器 profile 和注入 Cookie
搜索快捷指令集成 15+ 主流平台搜索宏,Reddit 搜索结果直接以 JSON 格式返回无内置搜索宏,需要开发者自行构建 URL 和解析逻辑无内置搜索宏
代理集成原生支持住宅代理和 Backconnect 代理,并能自动同步时区、语言和地理坐标需要手动配置代理参数,缺乏自动 GeoIP 匹配功能需要手动配置代理,缺乏自动 GeoIP 匹配功能
适用场景AI Agent 的网页自动化、云端自动化操作、生产级数据采集前端测试、通用网页自动化、开发传统的端到端测试、复杂的企业级测试框架构建

Camofox Browser 的应用场景

  • AI Agent 的网页自动化: 为基于大型语言模型(LLM)的智能体提供一个强大的可编程浏览器后端,使其能够执行数据抓取、表单填写、信息检索等一系列网页自动化任务。
  • 电商与竞品信息监控: 有效绕过电商平台的反机制,实现商品价格、库存、评价等信息的自动化抓取。该工具还支持在登录状态下进行账号级数据采集,满足更精细化的监控需求。
  • 社交媒体自动化管理: 通过导入 Cookie,可以实现对 Twitter、LinkedIn、Instagram 等社交媒体账号的自动化运营,包括内容发布、用户互动以及数据分析等。
  • 学术研究与舆情分析: 利用内置的搜索宏,可以快速检索 Google、Wikipedia、Reddit 等平台的信息,并提取 YouTube 视频字幕,为学术研究和舆情分析提供丰富的数据支持。
  • 云端自动化测试: 将 Camofox Browser 部署在 VPS 或容器环境中,作为无头浏览器服务,为持续集成/持续部署(CI/CD)流程中的端到端测试和网页监控提供强大的支持。
阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...