GPT-5-Codex 发布，可以7小时连续编程，但OpenAI 封杀了API。。

GPT-5-Codex 发布，可以7小时连续编程，但OpenAI 封杀了API。。核心观点：

OpenAI 发布了 GPT-5-Codex，一个能够完成软件开发任务的“工程智能体”，但仅通过 CLI、IDE 插件和网页端使用，不开放 API。Codex 在代码重构和处理复杂任务方面表现出色，能根据任务复杂度动态分配计算资源，并大幅提升了代码审查的效率和质量。

凌晨时分，OpenAI 悄然推出了备受瞩目的 GPT-5-Codex，然而，对于期待通过 API 调用的开发者而言，这无疑是一个令人沮丧的消息。OpenAI 此次做出了一个重大的战略决定：Codex 将不提供 API 接口。这意味着开发者无法再通过 API Key 来调用这一强大的模型，其使用途径将仅限于命令行界面（CLI）、集成开发环境（IDE）插件以及 Codex 的官方网页端。

GPT-5-Codex 的核心使命是“代为执行”，其能力已远超以往的局限。它不再仅仅是编写几行代码的助手，而是能够从用户提出需求的那一刻起，完成项目的搭建、测试的运行、缺陷的修复、截图的生成，乃至提交拉取请求（PR）的全流程工作。更令人惊叹的是，它能够一口气连续工作七小时不间断。虽然 Codex 的概念在 GPT-3 时代便已初露端倪，但 GPT-5-Codex 标志着 OpenAI 首次将其打造成为一个真正能够交付实际成果的“工程智能体”。

那么，GPT-5-Codex 的实力究竟有多强？一组基准测试数据或许能说明问题。在 SWE-bench 基准测试中，Codex 的通过率从 GPT-5 的 72.8% 提升至 74.5%。虽然增幅看似不大，但这背后代表着模型在“修复 Bug、增加功能、阅读文档”等传统开发任务上的稳定性得到了显著增强。

然而，当任务涉及到代码重构时，两者之间的差距便显现出来。在处理大型代码库的结构性改造任务时，GPT-5 的成功率仅为 33.9%，而 Codex 则达到了 51.3%，提升幅度接近 20%。这类任务与编写简短函数截然不同，需要模型具备上下文联动能力、理解依赖关系，并能通过调试逐步解决问题。这表明 Codex 的训练重点显然聚焦于此类高难度挑战。

尤为值得关注的是，GPT-5-Codex 在“动态思维”方面的表现，即模型在不同复杂度任务下消耗的 Token 数量（可视为“模型输出量”）。通过分析 OpenAI 员工使用 Codex CLI 的海量数据，并对各级复杂度任务的 Token 用量进行百分位曲线分析，得出了以下结论：在最简单的任务（前 10%）中，GPT-5-Codex 采取了精简策略，其计算量比 GPT-5 减少了 93.7%；而在最复杂的任务（后 10%）中，Codex 则会投入更多资源，其 Token 消耗量比 GPT-5 增加了 102.2%，用于进行逻辑推理、代码编辑、运行测试和迭代。简而言之，它能够根据任务的简繁程度，实现“小任务快输出，大项目细思考”，这正是工程智能体应有的特质。对于高度依赖代码审查的团队而言，Codex 还能显著节省人工精力。

OpenAI 对 Codex 的审查能力也进行了评估，并通过三组数据来佐证其优越性：错误建议比例方面，GPT-5 的错误率为 13.7%，而 Codex 降至 4.4%；高价值建议比例方面，GPT-5 仅为 39.4%，Codex 则提升至 52.4%；平均每个 PR 的留言数量方面，GPT-5 为 1.32 条，Codex 则优化为 0.93 条，这意味着它能更精准地传达关键信息，减少不必要的沟通成本。

这些测试成绩的意义远不止于更高的 Benchmark 分数，更重要的是，它证明了 Agent 式 AI 在以下三个方面的能力：能够根据任务复杂度合理分配时间；能够理解系统级的上下文信息；能够输出“工程意义上的结果”，即能够实际运行、经过测试并最终合并到主分支的代码，而非仅仅是看起来美观的代码片段。这也解释了 OpenAI 强烈推荐“将 Codex 仅用于 Codex 系统内部”的原因。

目前，Codex 已经实现了与用户开发流程的深度集成，覆盖了开发者可能编写代码的各个环节——从终端、IDE，到网页端、GitHub，甚至 ChatGPT 的手机 App。无论用户身处何种开发环境，Codex 都能无缝衔接，随时响应需求。

此外，Codex 还进行了用户体验的优化。CLI 界面更新了 UI，支持附加截图、线程图、上传设计格式等功能，使得工作进度的展示和交互记录更加精细。在处理复杂任务时，它能够自动生成待办列表，并进行环境搭建和依赖分析，甚至能够即时执行环境初始化和 pip install 等操作。IDE 插件则支持 VS Code、Cursor 等主流编辑器，能够根据用户打开的文件自动理解当前任务，并支持在编辑器内直接进行代码编辑，无需重复解释指令，同时能够无缝跳转到云端任务，确保上下文的完整性。而 Codex Cloud 则代表了自动化效率的上限，它能够模拟浏览器操作，查看生成的网页或 UI 页面，并根据用户提供的截图进行渲染，将运行结果的截图和日志展示给用户，并直接提交到 GitHub PR。

在定价方面，Codex 已被纳入 ChatGPT 的全套订阅计划中，包括 Plus、Pro、Business 和 Enterprise 等版本。虽然使用次数有限制，但总体而言，提供的额度并不算少。例如，Plus 用户每 5 小时可执行 30 至 150 次本地任务，每周有总量限制。Pro 用户则享有更高的调用次数，每 5 小时约支持 300 至 1500 次本地调用，并附带“云端任务特批额度”。Business 和 Edu 版本可通过购买积分进行额外扩容，而 Enterprise 版本则采用共享池模式，按使用量计费。

Codex 并非第一个涉足编程 Agent 领域的公司，也必然不会是最后一个。但此次发布可能标志着 Agent 从单纯的“产品功能”向“开发流程”的转变。现在，关键在于我们是否敢于将部分真实项目委托给它来完成。

阅读原文