GPT-5.4 与 GPT-5.4 Pro 深度解析
OpenAI 2026年3月最新旗舰模型全面评测——原生 Computer Use、Tool Search、可配置推理,以及与 Claude Opus 4.6 的硬核对比
GPT-5.4 核心亮点
在 SWE-bench Verified 上达到约 80.0%,HumanEval 95.1%,编程能力比肩 Claude Opus 4.6。
首个通用模型原生支持计算机操作,OSWorld-Verified 达到 75%,超越人类基线。
标准版 272K、API 模式支持 1M tokens 上下文窗口,与 Claude Opus 4.6 持平。
全新工具调用系统,在工具密集型工作流中节省 47% token 消耗,大幅降低成本。
GPT-5.4 带来了什么?
GPT-5.4 于 2026 年 3 月 5 日发布,是 OpenAI 首个原生支持 Computer Use(计算机操作)的通用模型。在 OSWorld 基准上达到 75%,超越人类基线。
GPT-5.4 Pro 则是面向企业的深度推理版本,定价 $30/$180(输入/输出),支持 922K 输入 + 128K 输出的超长上下文。两者均可通过 QCode.cc 接入使用。
可配置推理等级
5 个推理等级(low/medium/high 等),灵活控制推理深度与成本之间的平衡。
中途纠错能力
Mid-response Course Correction——在生成过程中自我修正,虚假声明率比 GPT-5.2 降低 33%。
Codex Security
2026-03-06 发布的 AI 安全代理,扫描 120 万次提交发现 10,561 个高严重性问题,误报率降低 50%+。
Codex CLI 集成
GPT-5.4 已成为 Codex 默认模型,支持 CLI 终端、Slack 集成、子代理等多种工作模式。
GPT-5.4 系列模型一览
| 模型 | 发布日期 | 上下文窗口 | 定位 |
|---|---|---|---|
| GPT-5.4 | 2026-03 | 1M tokens | 旗舰通用($2.50/$15) |
| GPT-5.3 Instant | 2026-03 | 128K tokens | 日常使用 |
| GPT-5.3-Codex | 2026-02 | 400K tokens | 编程优化(Codex 默认模型) |
| GPT-5.2 Thinking | 2025-12 | 400K tokens | 深度推理($30/$180) |
GPT-5.4 vs Claude Opus 4.6
GPT-5.4 进步显著,但 Claude Opus 4.6 在编程场景中仍保持多项领先优势。以下是客观对比:
GPT-5.4
- 输入定价更低($2.50 vs $5),标准任务成本优势明显
- 原生 Computer Use 支持,自动化操作能力更成熟
- Tool Search 节省 47% token,工具密集场景更经济
- 与 Copilot + GitHub 生态深度集成,企业工作流更顺畅
Claude Opus 4.6 / Sonnet 4.6
- SWE-bench 80.8%(GPT-5.4 为 ~80.0%),编程基准略胜
- 1M 上下文 + 自适应思维(Adaptive Thinking),推理更灵活
- 原生 Claude Code CLI + Agent Teams 多智能体协作
- 代码库理解深度业界公认最强,中文编程场景更精准
2026 年 3 月的 AI 编程工具格局已非常成熟——Claude Opus 4.6 在编程推理深度和代码库理解上领先,GPT-5.4 在定价和工具调用上有优势。通过 QCode.cc,你可以同时接入 Claude 和 Codex 全系列模型,灵活选择最适合的工具。
Codex CLI v0.104:Rust 重写与 MCP 集成
2026 年 3 月,OpenAI 发布 Codex CLI v0.104,采用 Rust 重写以提升性能,新增 MCP 服务器集成和 Web 搜索功能。
Rust 构建
从 Node.js 迁移至 Rust,启动速度和内存效率大幅提升
MCP 集成
通过 ~/.codex/config.toml 配置 MCP 服务器,扩展工具能力
Web 搜索
内置网页搜索能力,自动缓存结果,获取最新信息