Dulus,一个约 12K 行 Python 代码构建的开源命令行 AI 代理,正以前所未有的方式重塑我们与人工智能的交互体验。它不仅支持 Claude、GPT、Gemini、DeepSeek、Kimi、Qwen 等超过 40 种主流模型,更令人惊叹的是,它能够直接捕获浏览器网页版 AI 的用户会话,将其转化为一个功能强大的工具调用代理。这个代理集成了文件读写、代码编辑、Bash 执行、Web 搜索等 27 种实用工具,为开发者和 AI 爱好者带来了极大的便利。
Dulus 究竟是什么?
Dulus 是一个高度集成的开源 CLI AI Agent,其核心代码量约 12K 行 Python。它拥抱了广泛的模型生态,从 Anthropic 的 Claude 到 OpenAI 的 GPT,再到 Google 的 Gemini、DeepSeek、Kimi、Qwen 等,几乎涵盖了当前所有主流的 AI 模型。其最独特的功能在于能够直接“劫持”用户在浏览器中与网页版 AI 的会话,并将其转化为一个拥有强大工具调用能力的本地代理。这个代理支持文件读写、代码编辑、Bash 命令执行、网络搜索等 27 种核心工具。此外,Dulus 还具备 MCP、插件热加载、子代理、离线语音交互、持久化记忆与自动快照等高级特性,并提供了 PyQt6 GUI、WebChat 和 Telegram 等多种用户友好的交互入口。
Dulus 的核心能力概览
- 无缝网页会话捕获:Dulus 能够自动拦截 Gemini、Claude.ai、Kimi.com、DeepSeek 等浏览器标签页中的 AI 对话,将其转化为本地代理,赋予防问和调用工具的能力,且无需任何 API 密钥。
- 丰富的工具箱:内置了高达 27 种工具,包括但不限于 Read(读文件)、Write(写文件)、Edit(编辑文件)、Bash(执行 Shell 命令)、Glob(文件匹配)、Grep(文本搜索)、WebFetch(获取网页内容)、WebSearch(网络搜索)、NotebookEdit(Jupyter Notebook 编辑)、GetDiagnostics(获取诊断信息)、Memory(记忆管理)、Tasks(任务管理)、Agents(子代理管理)、Skills(技能管理)等,覆盖了开发和日常工作的方方面面。
- 模型切换:支持 Anthropic、OpenAI、Google、DeepSeek、Kimi、Qwen、Zhipu、MiniMax、Ollama、LM Studio 以及自定义端点等众多模型提供商。在会话过程中,用户可以通过输入
/model命令实时切换所使用的模型,实现灵活的模型选择。 - 强大的插件与 MCP 生态:通过放置
.mcp.json文件即可轻松注册任意 MCP 服务器,扩展 Dulus 的功能。Auto-Adapter 技术允许用户以零配置的方式将任意 Python 代码仓库加载为插件,极大地丰富了 Dulus 的可扩展性。 - 智能子代理与任务协作:Dulus 支持在的 Git Worktree 中生成 coder、reviewer、researcher 等多种类型的子代理。这些子代理能够通过消息传递进行高效协作,同时 Dulus 还内置了直观的任务看板,方便管理和追踪项目进展。
- 离线语音与个性化唤醒:基于 Whisper-cpp 实现的离线语音输入和 Kokoro TTS 实现的语音输出,让 Dulus 具备了完全离线运行的能力。用户还可以自定义离线唤醒词,例如“嘿 Dulus”,实现更自然的交互方式。
- 持久化记忆与智能快照:Dulus 拥有双范围记忆(用户级和项目级),并根据置信度和最近度进行排序,确保关键信息不会丢失。每轮对话结束后,Dulus 会自动创建 Checkpoints,支持用户一键回滚对话和文件状态,极大地提高了开发效率和数据安全性。
- 多模态交互界面:Dulus 提供了 REPL 终端、Flask WebChat(支持局域网访问)、PyQt6 原生桌面 GUI 和 Telegram Bot 四种交互方式,用户可以根据自己的使用场景选择最便捷的交互界面。
- 开发者增强模式:SSJ Mode 为开发者提供了原始 Token 计数、流延迟计时、工具调用检查器、Prompt 注入查看器等一系列强大的调试工具,帮助开发者更深入地理解和优化 Agent 的行为。
如何轻松上手 Dulus?
- 安装简便:只需在终端执行
pip install dulus命令,或者通过curl -fsSL https://raw.githubusercontent.com/KevRojo/Dulus/main/install.sh | bash进行一键安装。 - 灵活配置密钥:用户可以设置任意模型提供商的环境变量,例如
export ANTHROPIC_API_KEY=sk-ant-...。或者,为了实现真正的零密钥使用,可以直接跳过此步骤,利用 Ollama 本地模型或浏览器劫持模式进行操作。 - 启动交互体验:在终端输入
dulus命令即可进入 REPL 交互模式。用户可以通过/model nvidia-web/deepseek-r1或/model ollama/qwen2.5-coder等命令选择心仪的模型。 - 开启零密钥模式:首次启动时,按照向导提示打开 Gemini 的浏览器访客页面,Dulus 将会自动捕获该会话,用户无需 API Key 即可立即开始体验强大的工具调用功能。
- 执行复杂任务:只需用自然语言描述你的需求,例如“重构认证模块”(“refactor the auth module”),Dulus Agent 将会自动完成文件的读取、代码的编辑、测试的运行以及结果的提交等一系列操作。
- 无限扩展能力:通过
/plugin install 仓库名@URL命令,用户可以轻松热加载任意 Python 工具库,成为 Dulus 的插件。或者使用/mcp命令注册外部 MCP 服务器,进一步扩展 Dulus 的功能边界。
Dulus 的独特竞争优势
- 真正意义上的零成本启动:Dulus 彻底打破了使用 AI Agent 的成本门槛。无需 API Key、信用卡或复杂的登录流程,仅需 30 秒,通过浏览器访客模式即可获得一个功能齐全的工具调用 Agent,让 AI 的普惠性达到极致。
- 模型中立与实时切换的:Dulus 不依赖于任何单一的模型提供商。在一个会话中,用户可以通过
/model命令在 Claude、DeepSeek、Kimi 等模型之间无缝切换。同时,它还支持智能的自动降级链,确保在复杂场景下也能获得最佳的性能。 - 即插即用的生态扩展能力:Auto-Adapter 技术让任何 Python 仓库都能瞬间转化为 Dulus 的插件。结合 MCP 和 Composio 提供的超过 800 种技能,Dulus 的生态扩展不再受限于官方的适配速度,用户可以根据自己的需求随时随地进行定制。
- 全链路离线运行的可靠性:Dulus 支持语音输入输出、唤醒词识别、OCR 文字识别以及 Ollama 本地模型运行,这意味着它可以在完全断网的环境下工作。这对于需要高度安全性和隐私保护的网络环境(如、或企业内网)来说,具有不可替代的价值。
- 多界面统一核心的便捷性:无论用户选择终端、Web 界面、桌面 GUI 还是 Telegram Bot,Dulus 都共享同一套 Agent 核心和记忆状态。这意味着用户可以根据不同的使用场景,在这些界面之间切换,而不会丢失任何信息或上下文。
Dulus 的项目链接
- 项目官网:https://dulus.ai/
- GitHub 仓库:https://github.com/KevRojo/Dulus
Dulus 与同类竞品对比分析
| 对比维度 | Dulus | Claude Code | Aider |
|---|---|---|---|
| 提供商锁定 | 多提供商中立,支持实时切换 | 仅限 Anthropic Claude | 支持多模型,但配置相对复杂 |
| API Key 要求 | 可选零密钥(通过浏览器劫持) | 必须提供 API Key | 必须提供 API Key |
| 本地/离线运行 | 完全支持(Ollama + 离线语音) | 不支持 | 支持本地模型,但不含离线语音功能 |
| 插件生态 | Auto-Adapter 任意 Python 仓库 + MCP | 无插件系统 | 支持自定义工具,但生态相对有限 |
| 子代理/多 Agent | 内置多类型子代理,支持消息传递 | 无原生子代理功能 | 支持多文件编辑,无的子代理概念 |
| 语音交互 | 离线 Whisper + Kokoro TTS + 唤醒词 | 不支持 | 不支持 |
| Web/Telegram/GUI | 提供四种界面选项 | 仅支持终端 | 仅支持终端 |
| 记忆与快照 | 持久化记忆 + 自动 Checkpoint 回滚 | 仅支持会话级记忆 | 无原生快照机制 |
| 开源与体积 | 约 12K 行 Python,pip 可安装 | 闭源 | 开源,功能聚焦于编码辅助 |
Dulus 的典型应用场景
- 个性化编码助手:Dulus 能够取代传统的 IDE 插件,通过自然语言指令直接驱动代码的编写、重构、测试和版本控制,并支持多模型协作进行代码审查,极大地提升了开发效率。
- 零成本 AI 探索:对于学生和 AI 初学者而言,Dulus 提供的 Gemini 访客模式让他们能够免费体验前沿模型强大的工具调用能力,无需支付高昂的 API 费用,降低了 AI 技术的入门门槛。
- 离线/保密环境的自动化解决方案:在对数据安全性和隐私有极高要求的环境中,Dulus 可以基于 Ollama 本地模型和离线语音功能,构建完全私有化的 Agent 工作流,满足特定行业的需求。
- Telegram 远程运维:通过 Telegram 机器人,用户可以远程向家中或服务器上的 Dulus 发送指令,执行文件管理、日志排查等操作,实现便捷的远程运维。
- 多 Agent 协同研发模式:Dulus 的子代理功能允许将代码编写、审查、测试等任务分配给不同的 Agent 并行处理,这对于大型项目的分布式开发至关重要,能够显著加快开发进程。



粤公网安备 44011502001135号