GPT-5.4 深度解读:1M 上下文、OS World 超人类、定价与真实性能
OpenAI 今天发布了 GPT-5.4,HN 636 分。这不是一个简单的版本升级——它同时推出了 GPT-5.4、GPT-5.4 Thinking、GPT-5.4 Pro 和 GPT-5.3 Instant 四个模型,外加 Codex Fast Mode。信息量很大,逐一拆解。
定价:标准版亲民,Pro 版昂贵
先说大家最关心的:
| 模型 | 输入 ($/M tokens) | 输出 ($/M tokens) |
|---|---|---|
| GPT-5.4 | $2.50 | $15.00 |
| GPT-5.4 Pro | $30.00 | $180.00 |
GPT-5.4 标准版的定价比想象中低——$2.5/$15 的水平跟 Claude Sonnet 4.5 基本持平。但 Pro 版直接飙到 $30/$180,输出价格是标准版的 12 倍。OpenRouter 上已经可以用了。
超长上下文加价:1.05M 上下文窗口中,超过 272K token 的部分按 2x 输入 + 1.5x 输出计费(Codex 订阅中按 2x 使用量计算)。
1M 上下文窗口:标称 vs 实际
这是头条功能。当 Claude 还在 200K、Gemini 在 1M(但实际表现存疑)的时候,GPT-5.4 宣称 1.05M token 上下文。
但 HN 社区的反馈很冷静:
“1 million tokens is great until you notice the long context scores fall off a cliff past 256K and the rest is basically vibes and auto compacting.”
OpenAI 自己的 Long Context benchmark 分数似乎也印证了这一点——超过 256K 后性能显著下降。这跟 Gemini 的超长上下文面临的问题一样:标称窗口和有效窗口是两回事。
Codex 中可以通过 model_context_window 和 model_auto_compact_token_limit 来配置上下文策略,说明 OpenAI 自己也知道需要自动压缩来管理长上下文。
Benchmark:亮点与隐忧并存
亮点:
- OS World 75%,超越人类基线 72%——GPT-5.4 能通过截图理解和坐标点击来操作浏览器,演示了在 Gmail 中发邮件、创建日历事件
- NYT Connections benchmark:extra high 94.0(5.2 是 88.6),medium 92.0(5.2 是 71.4)——推理能力提升显著
- SWE-Bench Pro:从 5.2 的 55.6 提升到 57.7
隐忧:
- Terminal Bench 2.0 退步:GPT-5.4 得 75.1%,而 GPT-5.3 Codex 是 77.3%——终端操作能力反而下降了
- Thinking 模式部分场景退步:开启 Thinking 后,数学和浏览器 Agent benchmark 的分数竟然更低。这对”推理时间计算”范式是个警示信号
- No reasoning 模式分数仍然低:32.8(5.2 是 28.1),虽有提升但绝对值很低
Computer Use:进入实用阶段?
GPT-5.4 的一个重要方向是计算机使用能力。它能:
- 截图理解浏览器界面
- 通过坐标点击与 UI 元素交互
- 完成发邮件、日程安排等端到端任务
OpenAI 还展示了用 GPT-5.4 单一 prompt 生成了一个主题公园模拟游戏,使用 Playwright Interactive 进行浏览器实时测试,并用图像生成创建等距资产集。
不过 HN 上有人指出,通过截图+坐标点击来操作 UI 可能不是正确的方向——相比原生 API 调用,这种方式效率低且脆弱。
安全:首个网络安全高能力缓解模型
从 GPT-5.4 Thinking System Card 来看,这是 OpenAI 首个针对”网络安全高能力”实施缓解措施的通用模型。安全方法建立在 GPT-5.3 Codex 的基础上,特别关注了:
- 避免意外数据破坏操作
- 计算机使用过程中的用户确认机制
- 提示注入防御
- 思维链可监控性
OpenAI 的命名混乱
社区吐槽最多的可能是命名策略:
“OpenAI now has three price points: GPT 5.1, GPT 5.2 and now GPT 5.4. Version numbers jump across different model lines with Codex at 5.3, what they now call Instant also at 5.3.”
相比之下,Anthropic 的三档模型(Haiku / Sonnet / Opus)和 Google 的分层(Flash-Lite / Flash / Pro)都更清晰。OpenAI 从 GPT-5 的”统一路由器”理念,又回到了多模型并存的局面。
Codex Fast Mode
新功能 /fast 模式可以让 GPT-5.4 在 Codex 中提速 1.5 倍,代价是 2x 的使用量消耗。
HN 上有人质疑:
“Surely there’s got to be some tradeoff. Or have we finally arrived at the world’s first ‘free lunch’? Otherwise why not make /fast always active?”
对 OfoxAI 平台的影响
作为多模型聚合平台,GPT-5.4 的发布让模型选择更加复杂:
| 场景 | 推荐模型 |
|---|---|
| 日常对话/写作 | GPT-5.4 标准版 ($2.5/$15) |
| 复杂推理 | GPT-5.4 Thinking |
| 代码生成 | Claude Opus 4.6 / GPT-5.4 (各有优劣) |
| 长文档处理 | GPT-5.4 (1M) / Gemini 3.1 (待测) |
| 成本敏感场景 | Gemini 3.1 Flash-Lite |
| 顶级质量不计成本 | GPT-5.4 Pro ($30/$180) |
多模型策略越来越重要——没有一个模型是全场景最优的。
写在最后
GPT-5.4 的 1M 上下文和 Computer Use 能力确实让人兴奋,但 benchmark 的退步和 Thinking 模式的不稳定性也值得警惕。模型能力的提升不再是线性的——某些维度进步的同时,另一些维度可能在退化。
对开发者来说,”用对的模型做对的事”比”用最新的模型做所有事”更重要。
“The real question isn’t how many tokens your model can see—it’s how many it actually understands.”
相关链接:
🚀 想在一个平台上对比 GPT-5.4、Claude Opus 4.6、Gemini 3.1 的效果?试试 OfoxAI(ofox.ai)— 一个账号搞定所有主流 AI 模型,灵活切换零成本。
