TACO

AI工具11分钟前更新 AI工具集
0 0 0

TACO – 北航等高校开源的端智能体自进化观测压缩框架

TACO:让终端智能体“看”得更清,“说”得更准

在多轮命令行任务的复杂世界中,终端智能体常常面临一个棘手的挑战:海量的 shell 输出如同嘈杂的噪音,不断膨胀的上下文信息不仅淹没了关键的错误信号,更吞噬着宝贵的 token 预算。如今,一项由曼彻斯特大学、北京航空航天大学、香港科技大学以及 MAP 团队联合推出的开源框架——TACO,为这一困境带来了性的解决方案。TACO 巧妙地扮演着智能体的“观察者”和“压缩师”的角色,它无需训练、即插即用,能够让终端智能体在复杂的交互轨迹中,自行进化出高效的观测压缩策略。

TACO 的核心价值何在?

TACO 的出现,旨在解决终端 Agent 在执行多轮命令行任务时,因 shell 输出噪声的累积而导致的上下文信息过载问题。它能够自动从交互过程中挖掘并复用压缩规则,精准地保留那些至关重要的错误信息,同时大胆地过滤掉那些冗余的日志。其最大的亮点在于“即插即用”和“免训练”的特性,已经无缝集成到 Harbor 框架的 terminus-2 组件中。在 TerminalBench 等权威基准测试中,TACO 已为 DeepSeek-V3.2、Qwen3 等模型带来了 1% 至 4% 的准确率提升,并显著降低了长程任务的 token 消耗,实现了性能与成本的双重优化。

TACO 的主要功能亮点

  • 自主规则发现机制:TACO 能够主动扫描多轮终端交互产生的原始 shell 输出,自动识别出重复的模式,并生成相应的压缩规则,彻底摆脱了人工编写固定提示或启发式策略的繁琐。
  • 实时规则精炼与纠错:框架能够根据任务执行过程中的实时反馈,动态调整规则的边界,有效修复因过度压缩或遗漏关键信号而产生的问题,确保重要的报错信息和状态反馈不会被误删。
  • 全局规则池与跨任务迁移能力:TACO 维护着一个持久化的全局规则知识库,使得新任务能够直接加载并复用先前会话中经过验证的规则,从而实现了跨仓库、跨命令环境的经验累积与迁移。
  • 即插即用,无需训练:TACO 以插件的形式直接嵌入现有的终端 Agent(例如 Harbor 框架中的 terminus-2),只需通过命令行参数即可启用,无需对模型架构进行任何修改或微调。
  • 兼顾效率与性能:在过滤低价值终端噪声的同时,TACO 精准保留了关键的环境反馈信息,使得长程多轮任务的 token 消耗能够保持线性可控,并在 TerminalBench 等基准测试中显著提升了 1% 至 4% 的准确率。

TACO 的技术原理解析

问题根源:在多轮终端 Agent 的任务执行中,原始 shell 输出的完整回填导致系统日志、进度条等低价值噪声随着任务轮次的增加而二次膨胀,最终淹没了关键的报错信号,并大幅推高了 token 成本。

三模块协同架构:TACO 的核心架构由三个关键模块构成:规则发现器、规则精炼器和全局规则池。规则发现器负责监控输出流,对超出预设长度且未被有效覆盖的内容自动生成结构化的压缩规则;规则精炼器则根据任务执行的反馈,迭代优化规则的边界,防止误删关键信息;而全局规则池则负责持久化存储经过验证的规则,供未来的任务直接加载复用。

在线动态运行机制:在每一轮交互中,框架首先尝试从全局规则池中匹配并应用压缩规则。当遇到未被覆盖的长输出时,将触发新的规则发现机制。新发现的规则经过当前任务的验证后,会被汇入全局规则池。整个过程由外部规划 LLM 驱动,无需依赖训练数据或模型微调,从而使得压缩策略能够随着终端环境的动态变化而不断演化。

如何轻松上手 TACO?

  • 环境部署:在克隆 GitHub 仓库后,只需在项目根目录下执行 pip install -e . 命令,即可完成依赖安装。TACO 作为 Harbor 框架的 terminus-2 组件,可直接投入使用。
  • 快速启动指南:运行 Harbor 命令,并指定 terminus-2 agent,同时传入模型信息及 TACO 的专属参数即可启动。项目内的 scripts/run_taco_example.sh 脚本提供了可直接修改的模板,方便用户快速上手。
  • 核心参数配置要点:通过 --ak 前缀传入 enable_compress=True 以开启主压缩开关,enable_self_evo=True 则激活在线规则进化。同时,请配置 compress_base_urlcompress_api_keycompress_model_name,指向任意兼容 OpenAI 标准的规划 LLM 端点。
  • 常用模式选择:要获得完整的体验,需要同时开启压缩与自进化功能,并配置外部 LLM。若需要进行固定规则的消融实验,可追加 freeze_rules=True 参数。若仅希望在单任务本地进行进化而不继承全局规则池,则可添加 disable_global_evo=True
  • 运行控制与成本管理:使用 --ak max_turns=200 等参数设置单任务的最大轮次。通过 model_info 参数传入 JSON 配置 LiteLLM 的输入输出 token 限制,确保长程任务能在可控的成本范围内执行。

TACO 的核心竞争优势

  • 即插即用,零训练成本:无需对主干大模型进行微调,也无需改动 Agent 的底层架构,直接通过命令行参数即可轻松启用压缩与自进化功能。
  • 自进化与跨任务迁移:全局规则池使得 Agent 在执行长程多轮任务时能够持续积累压缩经验,新任务可直接继承过往的知识财富。
  • 性能与成本双赢局面:在 TerminalBench 等基准测试中,TACO 为 MiniMax-M2.5、DeepSeek-V3.2、Qwen3-Coder-480B 等模型带来了 1% 至 4% 的准确率提升,并在相同的 token 预算下,进一步提升了约 2% 至 3% 的效率。
  • 强大的泛化能力与极低的消耗:在 SWE-Bench Lite、CompileBench、DevEval、CRUST-Bench 等一系列测试中,TACO 均保持或提升了成功率,同时显著降低了总 token 消耗。

TACO 的应用场景展望

  • 长程软件工程 Agent 助手:在 SWE-Bench 等多轮代码调试、编译测试场景中,TACO 能有效抑制日志与终端输出的式增长,保持上下文的清晰与高效。
  • 自动化运维与部署的革新:TACO 能够智能处理 shell 返回的大量冗余系统状态与进程信息,显著提升 DevOps Agent 的决策稳定性和效率。
  • 精准的代码审查与测试分析:通过过滤无关紧要的编译警告与测试通过信息,TACO 能够精准地凸显关键报错和代码差异,提高审查效率。
  • 学术研究的复现与评测利器:作为 Harbor 框架的 terminus-2 插件,TACO 为终端 Agent 的 token 效率评估和长程能力基准测试提供了强有力的支持。

TACO 的出现,标志着终端智能体在处理复杂命令行任务时,进入了一个更智能、更高效的新时代。通过其独特的自进化压缩机制,TACO 不仅提升了模型的性能,更大幅降低了运行成本,为通用人工智能在软件工程、自动化运维等领域的落地应用,描绘了更加广阔的前景。

阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...