2026年3月发布

GPT-5.4 与 GPT-5.4 Pro 深度解析

OpenAI 2026年3月最新旗舰模型全面评测——原生 Computer Use、Tool Search、可配置推理，以及与 Claude Opus 4.6 的硬核对比

#GPT-5.4 #GPT-5.4-Codex #OpenAI #编程 #智能体

GPT-5.4 核心亮点

SWE-bench ~

在 SWE-bench Verified 上达到约 80.0%，HumanEval 95.1%，编程能力比肩 Claude Opus 4.6。

57.7%

原生 Computer Use

首个通用模型原生支持计算机操作，OSWorld-Verified 达到 75%，超越人类基线。

75%

1M 上下文（API）

标准版 272K、API 模式支持 1M tokens 上下文窗口，与 Claude Opus 4.6 持平。

1.5x

Tool Search

全新工具调用系统，在工具密集型工作流中节省 47% token 消耗，大幅降低成本。

GPT-5.4 于 2026 年 3 月 5 日发布，是 OpenAI 首个原生支持 Computer Use（计算机操作）的通用模型。在 OSWorld 基准上达到 75%，超越人类基线。

GPT-5.4 Pro 则是面向企业的深度推理版本，定价 $30/$180（输入/输出），支持 922K 输入 + 128K 输出的超长上下文。两者均可通过 QCode.cc 接入使用。

5 个推理等级（low/medium/high 等），灵活控制推理深度与成本之间的平衡。

Mid-response Course Correction——在生成过程中自我修正，虚假声明率比 GPT-5.2 降低 33%。

2026-03-06 发布的 AI 安全代理，扫描 120 万次提交发现 10,561 个高严重性问题，误报率降低 50%+。

GPT-5.4 已成为 Codex 默认模型，支持 CLI 终端、Slack 集成、子代理等多种工作模式。

模型	发布日期	上下文窗口	定位
GPT-5.4	2026-03	1M tokens	旗舰通用（$2.50/$15）
GPT-5.3 Instant	2026-03	128K tokens	日常使用
GPT-5.3-Codex	2026-02	400K tokens	编程优化（Codex 默认模型）
GPT-5.2 Thinking	2025-12	400K tokens	深度推理（$30/$180）