Composer 2.5 – Cursor 推出的自研 Agentic 编程模型
Cursor 公司近日隆重推出了其自主研发的 Agentic 编程模型——Composer 2.5。这款革新性的模型在智能水平和行为表现上较其前代产品 Composer 2 实现了飞跃式进步。在 SWE-Bench Multilingual(准确率 79.8%)和 CursorBench v3.1(准确率 63.2%)等关键性能评估中,Composer 2.5 的表现已与 Claude Opus 4.7 和 GPT-5.5 等业界顶尖模型并驾齐驱。尤为值得称道的是,其单次任务的执行成本仅为竞争对手的十分之一左右,堪称名副其实的“性价比之王”。
Composer 2.5 究竟是什么?
Composer 2.5 是 Cursor 公司自主研发的一款 Agentic 编程模型。相较于 Composer 2,它在智能表现和行为执行方面有了显著的提升。在 SWE-Bench Multilingual(79.8%)和 CursorBench v3.1(63.2%)等核心性能评测中,Composer 2.5 的表现已与 Claude Opus 4.7 和 GPT-5.5 等顶级模型处于同一水平。然而,其单次任务的成本却仅为竞品的约 1/10,因此被誉为“性价比之王”。该模型基于 Moonshot 开源的 Kimi K2.5 检查点进行持续训练,目前仅通过 Cursor IDE 和 SDK 提供服务。
Composer 2.5 的核心能力亮点
- 持久高效的长时任务处理:Composer 2.5 针对长时间运行的 Agent 会话进行了深度优化,能够在执行多步骤工具调用时保持高度专注,极大地减少了中途出现“幻觉”或提前终止任务的现象。
- 对复杂指令的卓越遵循能力:模型在理解和执行跨文件重构、终端命令执行、测试驱动开发等复杂指令方面的可靠性,相比 Composer 2 有了质的飞跃。
- 智能动态的任务努力级别调整:Composer 2.5 能够根据任务的难度自动分配计算资源,对于简单任务能够迅速完成,而对于复杂任务则会进行更深入的思考,有效避免了“小题大做”或“大事草率”的问题。
- 精炼的沟通风格:模型的回复更加简洁且结构化,减少了不必要的冗余解释。在处理多文件变更时,能够提供更为清晰的推理过程。
- 精准的工具调用能力:显著减少了无效终端命令的生成和冗余搜索,从而提升了代码检索和终端操作的效率。
- 双版本灵活适配:Composer 2.5 提供 Standard(标准版,每百万 token 输入 $0.50,输出 $2.50)和 Fast(快速版,每百万 token 输入 $3.00,输出 $15.00)两个版本。两者智能水平一致,分别适用于后台批量任务处理和交互式实时编程场景。
如何充分利用 Composer 2.5
-
在 Cursor IDE 中激活:请将 Cursor IDE 更新至 2026 年 5 月发布的最新稳定版本。随后,打开 Composer 面板(快捷键为
Cmd+I/Ctrl+I),然后在模型选择器中切换至 Composer 2.5。 - 选择合适的速度档位:在进行交互式开发时,默认会启用 Fast 版,以保证快速响应和低延迟。对于后台 Agent 或批量任务,可以在 Settings > Models 中切换至 Standard 版,以获得更低的成本,同时保持相同的智能水平。
- 通过 SDK 进行程序化调用:
import { Agent } from "@cursor/sdk";
const agent = await Agent.create({
model: "composer-2.5",// Standard 版
// model: "composer-2.5-fast",// Fast 版
workspace: "./",tools: ["edit","shell","search","browser"],});
- 为长时任务设置约束:对于无人值守的长时间 Agent 会话,建议设置迭代次数上限和最大耗时,以防止模型通过“捷径”(如利用缓存)进行奖励作弊。
- 把握首发福利:在发布后的第一周内,用户可享受双倍用量额度。您可以在后台查看额度消耗情况。
- 智能多模型路由策略:建议将 90% 的日常任务交给 Composer 2.5 处理。对于架构评审类任务,可路由给 Claude Opus 4.7;而对于重度终端 Shell 操作任务,则可考虑路由给 GPT-5.5。
Composer 2.5 的核心竞争优势
- 无与伦比的性价比:Standard 版的输入价格为 $0.50/M tokens,输出价格为 $2.50/M tokens;Fast 版的输入价格为 $3.00/M tokens,输出价格为 $15.00/M tokens。与 Claude Opus 4.7 相比,价格优势高达 10~30 倍。
- 前沿级的基准表现:在 SWE-Bench Multilingual 测试中,Composer 2.5 取得了 79.8% 的准确率,仅略低于 Opus 4.7 的 80.5%,但优于 GPT-5.5 的 77.8%。在 CursorBench v3.1 测试中,其准确率为 63.2%,与 Opus 4.7 的 64.8% 和 GPT-5.5 的 64.3% 基本持平。
- 行为层面的深度打磨:除了在训练规模上的投入,Composer 2.5 在沟通风格和投入级别校准方面也进行了显著改进。这些优化虽然不一定能完全体现在基准测试数据中,但对实际用户体验至关重要。
- 双版本灵活选择:Standard 版(标准版)非常适合后台 Agent 和批量任务处理;Fast 版(快速版,默认使用)则为交互式 IDE 实时编程提供了流畅体验。两个版本在智能水平上并无差异。
- 首发双倍用量福利:发布首周,用户将获得双倍的用量额度。
Composer 2.5 与同类竞品深度对比
| 对比维度 | Composer 2.5 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| 厂商 / 平台 | Cursor | Anthropic | OpenAI |
| 产品定位 | 自研 Agentic 编程模型 | 旗舰推理模型 | 旗舰多模态模型 |
| 基座模型 | Moonshot Kimi K2.5(开源检查点持续训练) | Claude 4 系列 | GPT-5 系列 |
| 发布日期 | 2026.05.18 | 2026 年 Q2 | 2026 年 Q2 |
| SWE-Bench Multilingual | 79.8% | 80.5% | 77.8% |
| Terminal-Bench 2.0 | 69.3% | 69.4% | 82.7% |
| CursorBench v3.1(困难任务) | 63.2% | 64.8%(max)/ 61.6%(默认 xhigh) | 64.3%(xhigh)/ 59.2%(默认 medium) |
| 输入价格(/M tokens) | $0.50(Standard)< $3.00(Fast) |
未公开(行业参考约 $15) | 未公开(行业参考约 $3–$5) |
| 输出价格(/M tokens) | $2.50(Standard)< $15.00(Fast) |
未公开(行业参考约 $75) | 未公开(行业参考约 $15–$30) |
| 单次任务相对成本 | 基准(约 $1–$2 / 任务) | 约 10–30 倍 | 约 3–10 倍 |
| 上下文窗口 | ~200K(参考 Kimi K2.5) | 200K | 128K–1M |
| 权重开放性 | 闭源(仅 Cursor 基础设施) | 闭源 | 闭源 |
| 接入方式 | Cursor IDE / CLI / @cursor/sdk |
API / Claude Code / 第三方平台 | API / ChatGPT / GitHub Copilot |
Composer 2.5 的适用场景
- 大规模代码库重构:Composer 2.5 在多文件重构任务上展现出显著的成本优势和与前沿模型相当的精度,非常适合进行大规模代码库的迁移和重构。
- 实时交互式结对编程:其 Fast 版具备快速响应能力,能够提供流畅的实时 IDE 协作体验。
- 后台自动化任务与云 Agent:Standard 版的极高性价比使其成为批量代码审查和自动修复等后台任务的理想选择。
- 测试驱动开发流程:Composer 2.5 在长时任务处理的可靠性方面优于前代产品,能够稳定地完成多轮测试-修复循环。
- 复杂终端自动化操作:虽然在 Terminal-Bench 2.0 测试中取得了 69.3% 的得分,与 Opus 4.7(69.4%)相当,但在执行重度终端 Shell 命令方面,其表现略逊于 GPT-5.5(82.7%)。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



粤公网安备 44011502001135号