Dulus

AI工具14分钟前更新 AI工具集
0 0 0

Dulus – 开源的 CLI AI Agent,可驱动多模型工具调用

Dulus,一个约 12K 行 Python 代码构建的开源命令行 AI 代理,正以前所未有的方式重塑我们与人工智能的交互体验。它不仅支持 Claude、GPT、Gemini、DeepSeek、Kimi、Qwen 等超过 40 种主流模型,更令人惊叹的是,它能够直接捕获浏览器网页版 AI 的用户会话,将其转化为一个功能强大的工具调用代理。这个代理集成了文件读写、代码编辑、Bash 执行、Web 搜索等 27 种实用工具,为开发者和 AI 爱好者带来了极大的便利。

Dulus 究竟是什么?

Dulus 是一个高度集成的开源 CLI AI Agent,其核心代码量约 12K 行 Python。它拥抱了广泛的模型生态,从 Anthropic 的 Claude 到 OpenAI 的 GPT,再到 Google 的 Gemini、DeepSeek、Kimi、Qwen 等,几乎涵盖了当前所有主流的 AI 模型。其最独特的功能在于能够直接“劫持”用户在浏览器中与网页版 AI 的会话,并将其转化为一个拥有强大工具调用能力的本地代理。这个代理支持文件读写、代码编辑、Bash 命令执行、网络搜索等 27 种核心工具。此外,Dulus 还具备 MCP、插件热加载、子代理、离线语音交互、持久化记忆与自动快照等高级特性,并提供了 PyQt6 GUI、WebChat 和 Telegram 等多种用户友好的交互入口。

Dulus 的核心能力概览

  • 无缝网页会话捕获:Dulus 能够自动拦截 Gemini、Claude.ai、Kimi.com、DeepSeek 等浏览器标签页中的 AI 对话,将其转化为本地代理,赋予防问和调用工具的能力,且无需任何 API 密钥。
  • 丰富的工具箱:内置了高达 27 种工具,包括但不限于 Read(读文件)、Write(写文件)、Edit(编辑文件)、Bash(执行 Shell 命令)、Glob(文件匹配)、Grep(文本搜索)、WebFetch(获取网页内容)、WebSearch(网络搜索)、NotebookEdit(Jupyter Notebook 编辑)、GetDiagnostics(获取诊断信息)、Memory(记忆管理)、Tasks(任务管理)、Agents(子代理管理)、Skills(技能管理)等,覆盖了开发和日常工作的方方面面。
  • 模型切换:支持 Anthropic、OpenAI、Google、DeepSeek、Kimi、Qwen、Zhipu、MiniMax、Ollama、LM Studio 以及自定义端点等众多模型提供商。在会话过程中,用户可以通过输入 /model 命令实时切换所使用的模型,实现灵活的模型选择。
  • 强大的插件与 MCP 生态:通过放置 .mcp.json 文件即可轻松注册任意 MCP 服务器,扩展 Dulus 的功能。Auto-Adapter 技术允许用户以零配置的方式将任意 Python 代码仓库加载为插件,极大地丰富了 Dulus 的可扩展性。
  • 智能子代理与任务协作:Dulus 支持在的 Git Worktree 中生成 coder、reviewer、researcher 等多种类型的子代理。这些子代理能够通过消息传递进行高效协作,同时 Dulus 还内置了直观的任务看板,方便管理和追踪项目进展。
  • 离线语音与个性化唤醒:基于 Whisper-cpp 实现的离线语音输入和 Kokoro TTS 实现的语音输出,让 Dulus 具备了完全离线运行的能力。用户还可以自定义离线唤醒词,例如“嘿 Dulus”,实现更自然的交互方式。
  • 持久化记忆与智能快照:Dulus 拥有双范围记忆(用户级和项目级),并根据置信度和最近度进行排序,确保关键信息不会丢失。每轮对话结束后,Dulus 会自动创建 Checkpoints,支持用户一键回滚对话和文件状态,极大地提高了开发效率和数据安全性。
  • 多模态交互界面:Dulus 提供了 REPL 终端、Flask WebChat(支持局域网访问)、PyQt6 原生桌面 GUI 和 Telegram Bot 四种交互方式,用户可以根据自己的使用场景选择最便捷的交互界面。
  • 开发者增强模式:SSJ Mode 为开发者提供了原始 Token 计数、流延迟计时、工具调用检查器、Prompt 注入查看器等一系列强大的调试工具,帮助开发者更深入地理解和优化 Agent 的行为。

如何轻松上手 Dulus?

  • 安装简便:只需在终端执行 pip install dulus 命令,或者通过 curl -fsSL https://raw.githubusercontent.com/KevRojo/Dulus/main/install.sh | bash 进行一键安装。
  • 灵活配置密钥:用户可以设置任意模型提供商的环境变量,例如 export ANTHROPIC_API_KEY=sk-ant-...。或者,为了实现真正的零密钥使用,可以直接跳过此步骤,利用 Ollama 本地模型或浏览器劫持模式进行操作。
  • 启动交互体验:在终端输入 dulus 命令即可进入 REPL 交互模式。用户可以通过 /model nvidia-web/deepseek-r1/model ollama/qwen2.5-coder 等命令选择心仪的模型。
  • 开启零密钥模式:首次启动时,按照向导提示打开 Gemini 的浏览器访客页面,Dulus 将会自动捕获该会话,用户无需 API Key 即可立即开始体验强大的工具调用功能。
  • 执行复杂任务:只需用自然语言描述你的需求,例如“重构认证模块”(“refactor the auth module”),Dulus Agent 将会自动完成文件的读取、代码的编辑、测试的运行以及结果的提交等一系列操作。
  • 无限扩展能力:通过 /plugin install 仓库名@URL 命令,用户可以轻松热加载任意 Python 工具库,成为 Dulus 的插件。或者使用 /mcp 命令注册外部 MCP 服务器,进一步扩展 Dulus 的功能边界。

Dulus 的独特竞争优势

  • 真正意义上的零成本启动:Dulus 彻底打破了使用 AI Agent 的成本门槛。无需 API Key、信用卡或复杂的登录流程,仅需 30 秒,通过浏览器访客模式即可获得一个功能齐全的工具调用 Agent,让 AI 的普惠性达到极致。
  • 模型中立与实时切换的:Dulus 不依赖于任何单一的模型提供商。在一个会话中,用户可以通过 /model 命令在 Claude、DeepSeek、Kimi 等模型之间无缝切换。同时,它还支持智能的自动降级链,确保在复杂场景下也能获得最佳的性能。
  • 即插即用的生态扩展能力:Auto-Adapter 技术让任何 Python 仓库都能瞬间转化为 Dulus 的插件。结合 MCP 和 Composio 提供的超过 800 种技能,Dulus 的生态扩展不再受限于官方的适配速度,用户可以根据自己的需求随时随地进行定制。
  • 全链路离线运行的可靠性:Dulus 支持语音输入输出、唤醒词识别、OCR 文字识别以及 Ollama 本地模型运行,这意味着它可以在完全断网的环境下工作。这对于需要高度安全性和隐私保护的网络环境(如、或企业内网)来说,具有不可替代的价值。
  • 多界面统一核心的便捷性:无论用户选择终端、Web 界面、桌面 GUI 还是 Telegram Bot,Dulus 都共享同一套 Agent 核心和记忆状态。这意味着用户可以根据不同的使用场景,在这些界面之间切换,而不会丢失任何信息或上下文。

Dulus 的项目链接

  • 项目官网:https://dulus.ai/
  • GitHub 仓库:https://github.com/KevRojo/Dulus

Dulus 与同类竞品对比分析

对比维度DulusClaude CodeAider
提供商锁定多提供商中立,支持实时切换仅限 Anthropic Claude支持多模型,但配置相对复杂
API Key 要求可选零密钥(通过浏览器劫持)必须提供 API Key必须提供 API Key
本地/离线运行完全支持(Ollama + 离线语音)不支持支持本地模型,但不含离线语音功能
插件生态Auto-Adapter 任意 Python 仓库 + MCP无插件系统支持自定义工具,但生态相对有限
子代理/多 Agent内置多类型子代理,支持消息传递无原生子代理功能支持多文件编辑,无的子代理概念
语音交互离线 Whisper + Kokoro TTS + 唤醒词不支持不支持
Web/Telegram/GUI提供四种界面选项仅支持终端仅支持终端
记忆与快照持久化记忆 + 自动 Checkpoint 回滚仅支持会话级记忆无原生快照机制
开源与体积约 12K 行 Python,pip 可安装闭源开源,功能聚焦于编码辅助

Dulus 的典型应用场景

  • 个性化编码助手:Dulus 能够取代传统的 IDE 插件,通过自然语言指令直接驱动代码的编写、重构、测试和版本控制,并支持多模型协作进行代码审查,极大地提升了开发效率。
  • 零成本 AI 探索:对于学生和 AI 初学者而言,Dulus 提供的 Gemini 访客模式让他们能够免费体验前沿模型强大的工具调用能力,无需支付高昂的 API 费用,降低了 AI 技术的入门门槛。
  • 离线/保密环境的自动化解决方案:在对数据安全性和隐私有极高要求的环境中,Dulus 可以基于 Ollama 本地模型和离线语音功能,构建完全私有化的 Agent 工作流,满足特定行业的需求。
  • Telegram 远程运维:通过 Telegram 机器人,用户可以远程向家中或服务器上的 Dulus 发送指令,执行文件管理、日志排查等操作,实现便捷的远程运维。
  • 多 Agent 协同研发模式:Dulus 的子代理功能允许将代码编写、审查、测试等任务分配给不同的 Agent 并行处理,这对于大型项目的分布式开发至关重要,能够显著加快开发进程。
阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...