TACO

TACO – 北航等高校开源的端智能体自进化观测压缩框架

TACO：让终端智能体“看”得更清，“说”得更准

在多轮命令行任务的复杂世界中，终端智能体常常面临一个棘手的挑战：海量的 shell 输出如同嘈杂的噪音，不断膨胀的上下文信息不仅淹没了关键的错误信号，更吞噬着宝贵的 token 预算。如今，一项由曼彻斯特大学、北京航空航天大学、香港科技大学以及 MAP 团队联合推出的开源框架——TACO，为这一困境带来了性的解决方案。TACO 巧妙地扮演着智能体的“观察者”和“压缩师”的角色，它无需训练、即插即用，能够让终端智能体在复杂的交互轨迹中，自行进化出高效的观测压缩策略。

TACO 的核心价值何在？

TACO 的出现，旨在解决终端 Agent 在执行多轮命令行任务时，因 shell 输出噪声的累积而导致的上下文信息过载问题。它能够自动从交互过程中挖掘并复用压缩规则，精准地保留那些至关重要的错误信息，同时大胆地过滤掉那些冗余的日志。其最大的亮点在于“即插即用”和“免训练”的特性，已经无缝集成到 Harbor 框架的 terminus-2 组件中。在 TerminalBench 等权威基准测试中，TACO 已为 DeepSeek-V3.2、Qwen3 等模型带来了 1% 至 4% 的准确率提升，并显著降低了长程任务的 token 消耗，实现了性能与成本的双重优化。

TACO 的主要功能亮点

自主规则发现机制：TACO 能够主动扫描多轮终端交互产生的原始 shell 输出，自动识别出重复的模式，并生成相应的压缩规则，彻底摆脱了人工编写固定提示或启发式策略的繁琐。
实时规则精炼与纠错：框架能够根据任务执行过程中的实时反馈，动态调整规则的边界，有效修复因过度压缩或遗漏关键信号而产生的问题，确保重要的报错信息和状态反馈不会被误删。
全局规则池与跨任务迁移能力：TACO 维护着一个持久化的全局规则知识库，使得新任务能够直接加载并复用先前会话中经过验证的规则，从而实现了跨仓库、跨命令环境的经验累积与迁移。
即插即用，无需训练：TACO 以插件的形式直接嵌入现有的终端 Agent（例如 Harbor 框架中的 terminus-2），只需通过命令行参数即可启用，无需对模型架构进行任何修改或微调。
兼顾效率与性能：在过滤低价值终端噪声的同时，TACO 精准保留了关键的环境反馈信息，使得长程多轮任务的 token 消耗能够保持线性可控，并在 TerminalBench 等基准测试中显著提升了 1% 至 4% 的准确率。

TACO 的技术原理解析

问题根源：在多轮终端 Agent 的任务执行中，原始 shell 输出的完整回填导致系统日志、进度条等低价值噪声随着任务轮次的增加而二次膨胀，最终淹没了关键的报错信号，并大幅推高了 token 成本。

三模块协同架构：TACO 的核心架构由三个关键模块构成：规则发现器、规则精炼器和全局规则池。规则发现器负责监控输出流，对超出预设长度且未被有效覆盖的内容自动生成结构化的压缩规则；规则精炼器则根据任务执行的反馈，迭代优化规则的边界，防止误删关键信息；而全局规则池则负责持久化存储经过验证的规则，供未来的任务直接加载复用。

在线动态运行机制：在每一轮交互中，框架首先尝试从全局规则池中匹配并应用压缩规则。当遇到未被覆盖的长输出时，将触发新的规则发现机制。新发现的规则经过当前任务的验证后，会被汇入全局规则池。整个过程由外部规划 LLM 驱动，无需依赖训练数据或模型微调，从而使得压缩策略能够随着终端环境的动态变化而不断演化。

如何轻松上手 TACO？

环境部署：在克隆 GitHub 仓库后，只需在项目根目录下执行 pip install -e . 命令，即可完成依赖安装。TACO 作为 Harbor 框架的 terminus-2 组件，可直接投入使用。
快速启动指南：运行 Harbor 命令，并指定 terminus-2 agent，同时传入模型信息及 TACO 的专属参数即可启动。项目内的 scripts/run_taco_example.sh 脚本提供了可直接修改的模板，方便用户快速上手。
核心参数配置要点：通过 --ak 前缀传入 enable_compress=True 以开启主压缩开关，enable_self_evo=True 则激活在线规则进化。同时，请配置 compress_base_url、compress_api_key 和 compress_model_name，指向任意兼容 OpenAI 标准的规划 LLM 端点。
常用模式选择：要获得完整的体验，需要同时开启压缩与自进化功能，并配置外部 LLM。若需要进行固定规则的消融实验，可追加 freeze_rules=True 参数。若仅希望在单任务本地进行进化而不继承全局规则池，则可添加 disable_global_evo=True。
运行控制与成本管理：使用 --ak max_turns=200 等参数设置单任务的最大轮次。通过 model_info 参数传入 JSON 配置 LiteLLM 的输入输出 token 限制，确保长程任务能在可控的成本范围内执行。

TACO 的核心竞争优势

即插即用，零训练成本：无需对主干大模型进行微调，也无需改动 Agent 的底层架构，直接通过命令行参数即可轻松启用压缩与自进化功能。
自进化与跨任务迁移：全局规则池使得 Agent 在执行长程多轮任务时能够持续积累压缩经验，新任务可直接继承过往的知识财富。
性能与成本双赢局面：在 TerminalBench 等基准测试中，TACO 为 MiniMax-M2.5、DeepSeek-V3.2、Qwen3-Coder-480B 等模型带来了 1% 至 4% 的准确率提升，并在相同的 token 预算下，进一步提升了约 2% 至 3% 的效率。
强大的泛化能力与极低的消耗：在 SWE-Bench Lite、CompileBench、DevEval、CRUST-Bench 等一系列测试中，TACO 均保持或提升了成功率，同时显著降低了总 token 消耗。

TACO 的应用场景展望

长程软件工程 Agent 助手：在 SWE-Bench 等多轮代码调试、编译测试场景中，TACO 能有效抑制日志与终端输出的式增长，保持上下文的清晰与高效。
自动化运维与部署的革新：TACO 能够智能处理 shell 返回的大量冗余系统状态与进程信息，显著提升 DevOps Agent 的决策稳定性和效率。
精准的代码审查与测试分析：通过过滤无关紧要的编译警告与测试通过信息，TACO 能够精准地凸显关键报错和代码差异，提高审查效率。
学术研究的复现与评测利器：作为 Harbor 框架的 terminus-2 插件，TACO 为终端 Agent 的 token 效率评估和长程能力基准测试提供了强有力的支持。

TACO 的出现，标志着终端智能体在处理复杂命令行任务时，进入了一个更智能、更高效的新时代。通过其独特的自进化压缩机制，TACO 不仅提升了模型的性能，更大幅降低了运行成本，为通用人工智能在软件工程、自动化运维等领域的落地应用，描绘了更加广阔的前景。

阅读原文