GPT‑5.4

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

GPT‑5.4:AI 智能的又一次飞跃,专为专业人士量身打造的强大前沿模型。

OpenAI 隆重推出其最新旗舰 AI 模型 GPT‑5.4,这款模型被誉为“专为专业工作设计的最强前沿模型”。GPT‑5.4 首次将强大的推理能力、精密的编程技能、原生的计算机操作、深度网页搜索以及令人惊叹的百万 Token 上下文处理能力融于一体,而且在整合这些功能的同时,丝毫未牺牲任何一项性能。

GPT‑5.4 究竟是什么?

GPT‑5.4 是 OpenAI 最新发布的旗舰级人工智能模型,其定位是成为“专为专业工作设计的最强前沿模型”。这款模型的一大突破在于,它首次实现了推理、编程、原生计算机操作、深度网页搜索以及百万 Token 上下文处理能力的全面整合,并且在实现这一整合的过程中,没有对任何一项原有性能进行妥协。在 OSWorld 电脑操作测试中,GPT‑5.4 以 75% 的成功率首次超越了人类的平均水平;而在 GDPval 知识工作测试中,其 83% 的任务完成度达到了或超越了专业人士的水准。GPT‑5.4 具备理解截图界面并执行鼠标和键盘操作的能力,能够完成跨应用程序的复杂任务。这标志着人工智能正从简单的“回答问题”模式,迈向更加强大的“完成任务”新纪元。

GPT‑5.4 的核心功能亮点

  • 原生计算机操作: 通过精准识别屏幕截图,GPT‑5.4 能够执行鼠标点击和键盘输入操作,从而在不同应用程序之间无缝协作,完成诸如发送电子邮件、填写表单、操控网页等复杂任务。其在 OSWorld 测试中高达 75% 的成功率,标志着 AI 在此领域首次超越人类水平。
  • 深度知识工作: 该模型能够胜任 44 种职业的真实工作场景,涵盖制作演示文稿、进行财务建模、深入数据分析以及分析法律文档等。在 GDPval 测试中,其 83% 的表现达到了或超越了专业人士的标准。
  • 高阶编程与调试: GPT‑5.4 集成了 GPT‑5.3-Codex 的强大能力,可进行代码生成、审查和优化。新增的 Playwright Interactive 功能允许用户在编写代码的同时进行可视化调试,并能自动测试 Web 应用程序。
  • 智能工具调用: 模型引入了先进的工具搜索机制,能够按需查询工具定义,从而将 Token 消耗降低了 47%。它还支持在多步骤任务中灵活调用外部工具和 API。
  • 深度网页搜索: GPT‑5.4 支持多轮持续搜索、智能筛选信息并整合结果。在 BrowseComp 测试中,其取得了 82.7% 的优异成绩,特别擅长处理“大海捞针”式的复杂查询。
  • 超长上下文处理: API 支持高达 100 万 Token 的上下文长度,能够一次性处理完整的项目文档。此外,它还支持高达 1024 万像素的高保真图像输入。
  • 实时任务调控: 在执行复杂任务前,GPT‑5.4 会先展示详细的工作计划,并在执行过程中允许随时调整方向,无需从头开始。
  • 多模态视觉理解: 模型的视觉推理、文档解析和界面识别能力得到了显著提升,能够处理高分辨率图像和复杂的界面交互。

GPT‑5.4 的杰出性能表现

  • 知识工作领域:
    • GDPval 测试:83.0% 的任务完成度达到或超越了行业专家水准(相较于 GPT‑5.2 的 70.9% 有显著提升)。
    • 投行级表格建模:87.3% 的准确率(GPT‑5.2 为 68.4%)。
    • PPT 生成:在人类评审中,68% 的用户更偏好 GPT‑5.4 生成的内容。
  • 计算机操作领域:
    • OSWorld-Verified:75.0% 的成功率,首次超越了 72.4% 的人类基线(GPT‑5.2 仅为 47.3%)。
    • WebArena-Verified:67.3% 的表现,彰显其在浏览器任务处理方面的领先地位。
    • Online-Mind2Web:92.8% 的高准确率,能够仅凭截图观察即可精准操作网页。
  • 编程能力领域:
    • SWE-Bench Pro:达到了 57.7% 的性能,略高于 GPT‑5.3-Codex(56.8%),同时实现了更低的延迟和更高的 Token 效率。
    • Terminal-Bench 2.0:75.1% 的稳定表现,证明其在终端任务处理方面的可靠性。
  • 工具与搜索领域:
    • BrowseComp:82.7% 的成绩(Pro 版本高达 89.3%),较 GPT‑5.2(65.8%)提升了 17 个百分点,创下业界新高。
    • Toolathlon:54.6% 的成功率(GPT‑5.2 为 45.7%),在多步骤工具调用方面更加精准。
    • Token 消耗:成功降低了 47%,通过其工具搜索机制,在保持同等准确率的前提下大幅降低了成本。
  • 学术与推理领域:
    • GPQA Diamond:92.8% 的分数(Pro 版本 94.4%),在科学问答方面接近满分。
    • Humanity’s Last Exam(带工具):52.1% 的表现(Pro 版本 58.7%),在高难度综合测试中展现出色的能力。
    • ARC-AGI-2:73.3% 的成绩(Pro 版本 83.3%),抽象推理能力大幅提升,远超 GPT‑5.2 Pro 的 54.2%。
  • 可靠性方面:
    • 单条事实错误概率:降低了 33%。
    • 完整回答出错率:降低了 18%,使其成为 OpenAI 迄今为止最注重事实准确性的模型。

如何体验 GPT‑5.4 的强大功能

  • ChatGPT 平台: 访问 ChatGPT 官方网站或下载 ChatGPT 应用程序。GPT‑5.4 已正式向 ChatGPT Plus、Team 和 Pro 用户开放,并替代 GPT‑5.2 Thinking 成为默认的思考模型。
  • OpenAI API: 通过 API 密钥调用 gpt-5.4gpt-5.4-pro 模型端点。API 支持高达 100 万 Token 的上下文处理以及工具搜索功能,并按照 Token 使用量进行计费。
  • Codex 工具: 访问 Codex 官方网站,输入 /fast 即可开启加速模式。或者使用实验性的 1M 上下文窗口来处理大型代码项目,并利用 Playwright Interactive 进行可视化调试。

GPT‑5.4 的产品定价策略

  • ChatGPT 订阅计划:
    • Plus/Business 订阅:包含 GPT‑5.4 Thinking 功能(每周 3000 次调用额度)。
    • Pro 订阅:提供 GPT‑5.4 Pro 功能,不设调用次数限制。
  • API 按量计费:
    • GPT‑5.4:输入费用为 $2.50/百万 Token,缓存输入为 $0.25/百万 Token,输出费用为 $15/百万 Token。
    • GPT‑5.4 Pro:输入费用为 $30/百万 Token,输出费用为 $180/百万 Token。

GPT‑5.4 的广泛应用场景

  • 办公自动化: 能够替代人工完成演示文稿制作、财务建模、数据分析、文档处理等各类知识型工作。
  • 智能 Agent: 可以自主操作电脑,完成跨应用程序的复杂任务,例如自动发送邮件、填写表格、安排日程、批量录入数据等。
  • 软件开发: 覆盖全栈开发、代码审查、Bug 修复等环节。支持边编码边测试的 Playwright 交互式调试,能够构建复杂的 Web 应用和游戏。
  • 企业流程优化: 可接入企业内部系统,实现 RPA 自动化,高效处理税务申报、合同审核、客户服务等需要长周期、多步骤的任务。
  • 深度研究探索: 能够进行多轮网页搜索并整合信息,有效处理需要跨来源验证的复杂查询。
阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...