GPT‑5.4

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

GPT‑5.4：AI 智能的又一次飞跃，专为专业人士量身打造的强大前沿模型。

OpenAI 隆重推出其最新旗舰 AI 模型 GPT‑5.4，这款模型被誉为“专为专业工作设计的最强前沿模型”。GPT‑5.4 首次将强大的推理能力、精密的编程技能、原生的计算机操作、深度网页搜索以及令人惊叹的百万 Token 上下文处理能力融于一体，而且在整合这些功能的同时，丝毫未牺牲任何一项性能。

GPT‑5.4 究竟是什么？

GPT‑5.4 是 OpenAI 最新发布的旗舰级人工智能模型，其定位是成为“专为专业工作设计的最强前沿模型”。这款模型的一大突破在于，它首次实现了推理、编程、原生计算机操作、深度网页搜索以及百万 Token 上下文处理能力的全面整合，并且在实现这一整合的过程中，没有对任何一项原有性能进行妥协。在 OSWorld 电脑操作测试中，GPT‑5.4 以 75% 的成功率首次超越了人类的平均水平；而在 GDPval 知识工作测试中，其 83% 的任务完成度达到了或超越了专业人士的水准。GPT‑5.4 具备理解截图界面并执行鼠标和键盘操作的能力，能够完成跨应用程序的复杂任务。这标志着人工智能正从简单的“回答问题”模式，迈向更加强大的“完成任务”新纪元。

GPT‑5.4 的核心功能亮点

原生计算机操作： 通过精准识别屏幕截图，GPT‑5.4 能够执行鼠标点击和键盘输入操作，从而在不同应用程序之间无缝协作，完成诸如发送电子邮件、填写表单、操控网页等复杂任务。其在 OSWorld 测试中高达 75% 的成功率，标志着 AI 在此领域首次超越人类水平。
深度知识工作： 该模型能够胜任 44 种职业的真实工作场景，涵盖制作演示文稿、进行财务建模、深入数据分析以及分析法律文档等。在 GDPval 测试中，其 83% 的表现达到了或超越了专业人士的标准。
高阶编程与调试： GPT‑5.4 集成了 GPT‑5.3-Codex 的强大能力，可进行代码生成、审查和优化。新增的 Playwright Interactive 功能允许用户在编写代码的同时进行可视化调试，并能自动测试 Web 应用程序。
智能工具调用： 模型引入了先进的工具搜索机制，能够按需查询工具定义，从而将 Token 消耗降低了 47%。它还支持在多步骤任务中灵活调用外部工具和 API。
深度网页搜索： GPT‑5.4 支持多轮持续搜索、智能筛选信息并整合结果。在 BrowseComp 测试中，其取得了 82.7% 的优异成绩，特别擅长处理“大海捞针”式的复杂查询。
超长上下文处理： API 支持高达 100 万 Token 的上下文长度，能够一次性处理完整的项目文档。此外，它还支持高达 1024 万像素的高保真图像输入。
实时任务调控： 在执行复杂任务前，GPT‑5.4 会先展示详细的工作计划，并在执行过程中允许随时调整方向，无需从头开始。
多模态视觉理解： 模型的视觉推理、文档解析和界面识别能力得到了显著提升，能够处理高分辨率图像和复杂的界面交互。

GPT‑5.4 的杰出性能表现

知识工作领域：
- GDPval 测试：83.0% 的任务完成度达到或超越了行业专家水准（相较于 GPT‑5.2 的 70.9% 有显著提升）。
- 投行级表格建模：87.3% 的准确率（GPT‑5.2 为 68.4%）。
- PPT 生成：在人类评审中，68% 的用户更偏好 GPT‑5.4 生成的内容。
计算机操作领域：
- OSWorld-Verified：75.0% 的成功率，首次超越了 72.4% 的人类基线（GPT‑5.2 仅为 47.3%）。
- WebArena-Verified：67.3% 的表现，彰显其在浏览器任务处理方面的领先地位。
- Online-Mind2Web：92.8% 的高准确率，能够仅凭截图观察即可精准操作网页。
编程能力领域：
- SWE-Bench Pro：达到了 57.7% 的性能，略高于 GPT‑5.3-Codex（56.8%），同时实现了更低的延迟和更高的 Token 效率。
- Terminal-Bench 2.0：75.1% 的稳定表现，证明其在终端任务处理方面的可靠性。
工具与搜索领域：
- BrowseComp：82.7% 的成绩（Pro 版本高达 89.3%），较 GPT‑5.2（65.8%）提升了 17 个百分点，创下业界新高。
- Toolathlon：54.6% 的成功率（GPT‑5.2 为 45.7%），在多步骤工具调用方面更加精准。
- Token 消耗：成功降低了 47%，通过其工具搜索机制，在保持同等准确率的前提下大幅降低了成本。
学术与推理领域：
- GPQA Diamond：92.8% 的分数（Pro 版本 94.4%），在科学问答方面接近满分。
- Humanity’s Last Exam（带工具）：52.1% 的表现（Pro 版本 58.7%），在高难度综合测试中展现出色的能力。
- ARC-AGI-2：73.3% 的成绩（Pro 版本 83.3%），抽象推理能力大幅提升，远超 GPT‑5.2 Pro 的 54.2%。
可靠性方面：
- 单条事实错误概率：降低了 33%。
- 完整回答出错率：降低了 18%，使其成为 OpenAI 迄今为止最注重事实准确性的模型。

如何体验 GPT‑5.4 的强大功能

ChatGPT 平台： 访问 ChatGPT 官方网站或下载 ChatGPT 应用程序。GPT‑5.4 已正式向 ChatGPT Plus、Team 和 Pro 用户开放，并替代 GPT‑5.2 Thinking 成为默认的思考模型。
OpenAI API： 通过 API 密钥调用 gpt-5.4 或 gpt-5.4-pro 模型端点。API 支持高达 100 万 Token 的上下文处理以及工具搜索功能，并按照 Token 使用量进行计费。
Codex 工具： 访问 Codex 官方网站，输入 /fast 即可开启加速模式。或者使用实验性的 1M 上下文窗口来处理大型代码项目，并利用 Playwright Interactive 进行可视化调试。

GPT‑5.4 的产品定价策略

ChatGPT 订阅计划：
- Plus/Business 订阅：包含 GPT‑5.4 Thinking 功能（每周 3000 次调用额度）。
- Pro 订阅：提供 GPT‑5.4 Pro 功能，不设调用次数限制。
API 按量计费：
- GPT‑5.4：输入费用为 $2.50/百万 Token，缓存输入为 $0.25/百万 Token，输出费用为 $15/百万 Token。
- GPT‑5.4 Pro：输入费用为 $30/百万 Token，输出费用为 $180/百万 Token。