核心观点:
OpenAI 发布了 GPT-5-Codex,一个能够完成软件开发任务的“工程智能体”,但仅通过 CLI、IDE 插件和网页端使用,不开放 API。Codex 在代码重构和处理复杂任务方面表现出色,能根据任务复杂度动态分配计算资源,并大幅提升了代码审查的效率和质量。
凌晨时分,OpenAI 悄然推出了备受瞩目的 GPT-5-Codex,然而,对于期待通过 API 调用的开发者而言,这无疑是一个令人沮丧的消息。OpenAI 此次做出了一个重大的战略决定:Codex 将不提供 API 接口。这意味着开发者无法再通过 API Key 来调用这一强大的模型,其使用途径将仅限于命令行界面(CLI)、集成开发环境(IDE)插件以及 Codex 的官方网页端。
GPT-5-Codex 的核心使命是“代为执行”,其能力已远超以往的局限。它不再仅仅是编写几行代码的助手,而是能够从用户提出需求的那一刻起,完成项目的搭建、测试的运行、缺陷的修复、截图的生成,乃至提交拉取请求(PR)的全流程工作。更令人惊叹的是,它能够一口气连续工作七小时不间断。虽然 Codex 的概念在 GPT-3 时代便已初露端倪,但 GPT-5-Codex 标志着 OpenAI 首次将其打造成为一个真正能够交付实际成果的“工程智能体”。
那么,GPT-5-Codex 的实力究竟有多强?一组基准测试数据或许能说明问题。在 SWE-bench 基准测试中,Codex 的通过率从 GPT-5 的 72.8% 提升至 74.5%。虽然增幅看似不大,但这背后代表着模型在“修复 Bug、增加功能、阅读文档”等传统开发任务上的稳定性得到了显著增强。
然而,当任务涉及到代码重构时,两者之间的差距便显现出来。在处理大型代码库的结构性改造任务时,GPT-5 的成功率仅为 33.9%,而 Codex 则达到了 51.3%,提升幅度接近 20%。这类任务与编写简短函数截然不同,需要模型具备上下文联动能力、理解依赖关系,并能通过调试逐步解决问题。这表明 Codex 的训练重点显然聚焦于此类高难度挑战。
尤为值得关注的是,GPT-5-Codex 在“动态思维”方面的表现,即模型在不同复杂度任务下消耗的 Token 数量(可视为“模型输出量”)。通过分析 OpenAI 员工使用 Codex CLI 的海量数据,并对各级复杂度任务的 Token 用量进行百分位曲线分析,得出了以下结论:在最简单的任务(前 10%)中,GPT-5-Codex 采取了精简策略,其计算量比 GPT-5 减少了 93.7%;而在最复杂的任务(后 10%)中,Codex 则会投入更多资源,其 Token 消耗量比 GPT-5 增加了 102.2%,用于进行逻辑推理、代码编辑、运行测试和迭代。简而言之,它能够根据任务的简繁程度,实现“小任务快输出,大项目细思考”,这正是工程智能体应有的特质。对于高度依赖代码审查的团队而言,Codex 还能显著节省人工精力。
OpenAI 对 Codex 的审查能力也进行了评估,并通过三组数据来佐证其优越性:错误建议比例方面,GPT-5 的错误率为 13.7%,而 Codex 降至 4.4%;高价值建议比例方面,GPT-5 仅为 39.4%,Codex 则提升至 52.4%;平均每个 PR 的留言数量方面,GPT-5 为 1.32 条,Codex 则优化为 0.93 条,这意味着它能更精准地传达关键信息,减少不必要的沟通成本。
这些测试成绩的意义远不止于更高的 Benchmark 分数,更重要的是,它证明了 Agent 式 AI 在以下三个方面的能力:能够根据任务复杂度合理分配时间;能够理解系统级的上下文信息;能够输出“工程意义上的结果”,即能够实际运行、经过测试并最终合并到主分支的代码,而非仅仅是看起来美观的代码片段。这也解释了 OpenAI 强烈推荐“将 Codex 仅用于 Codex 系统内部”的原因。
目前,Codex 已经实现了与用户开发流程的深度集成,覆盖了开发者可能编写代码的各个环节——从终端、IDE,到网页端、GitHub,甚至 ChatGPT 的手机 App。无论用户身处何种开发环境,Codex 都能无缝衔接,随时响应需求。
此外,Codex 还进行了用户体验的优化。CLI 界面更新了 UI,支持附加截图、线程图、上传设计格式等功能,使得工作进度的展示和交互记录更加精细。在处理复杂任务时,它能够自动生成待办列表,并进行环境搭建和依赖分析,甚至能够即时执行环境初始化和 pip install 等操作。IDE 插件则支持 VS Code、Cursor 等主流编辑器,能够根据用户打开的文件自动理解当前任务,并支持在编辑器内直接进行代码编辑,无需重复解释指令,同时能够无缝跳转到云端任务,确保上下文的完整性。而 Codex Cloud 则代表了自动化效率的上限,它能够模拟浏览器操作,查看生成的网页或 UI 页面,并根据用户提供的截图进行渲染,将运行结果的截图和日志展示给用户,并直接提交到 GitHub PR。
在定价方面,Codex 已被纳入 ChatGPT 的全套订阅计划中,包括 Plus、Pro、Business 和 Enterprise 等版本。虽然使用次数有限制,但总体而言,提供的额度并不算少。例如,Plus 用户每 5 小时可执行 30 至 150 次本地任务,每周有总量限制。Pro 用户则享有更高的调用次数,每 5 小时约支持 300 至 1500 次本地调用,并附带“云端任务特批额度”。Business 和 Edu 版本可通过购买积分进行额外扩容,而 Enterprise 版本则采用共享池模式,按使用量计费。
Codex 并非第一个涉足编程 Agent 领域的公司,也必然不会是最后一个。但此次发布可能标志着 Agent 从单纯的“产品功能”向“开发流程”的转变。现在,关键在于我们是否敢于将部分真实项目委托给它来完成。