GPT-5.5 发布:OpenAI 的下一个 Agent 里程碑
OpenAI 昨天发布了 GPT-5.5,这是他们迄今为止”最聪明、最直观”的模型。官方定位很明确:这是”下一代计算机工作方式”的下一步。翻译一下——Agent 时代真的要来了。
核心升级:不只是更聪明
GPT-5.5 的提升不是简单的 benchmark 数字上涨。OpenAI 强调的是直觉和自主性:
- 更快的意图理解:不需要你精确描述每一步,给出一个”混乱的多部分任务”,它自己能规划、用工具、检查工作、在模糊中导航
- 真正的端到端执行:写代码、调试、在线研究、数据分析、操作软件、跨工具完成任务,直到做完为止
- 效率与速度并存:官方数据说,GPT-5.5 在真实服务中的延迟与 GPT-5.4 相当,但智能水平显著提高,完成同样 Codex 任务使用的 token 更少
GPT-5.5 在 Terminal-Bench 2.0、Expert-SWE、FrontierMath 等多项评测中取得领先成绩
关键数据
几个值得关注的 benchmark:
| 评测 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 |
|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% |
| Expert-SWE (内部) | 73.1% | 68.5% | - |
| SWE-Bench Pro | 58.6% | - | - |
| FrontierMath Tier 4 | 35.4% | 27.1% | 22.9% |
Terminal-Bench 2.0 测试的是复杂命令行工作流(需要规划、迭代、工具协调),GPT-5.5 达到了 82.7% 的准确率。SWE-Bench Pro 测试的是真实 GitHub issue 解决,GPT-5.5 达到了 58.6%,而且比前代模型用更少的 token 完成更多端到端任务。
更值得关注的是 Expert-SWE —— OpenAI 内部的”前沿评测”,针对中位人类完成时间约 20 小时的长周期编码任务。GPT-5.5 在这个指标上超越了 GPT-5.4。
GPT-5.5 在复杂编码和推理任务中展现出更强的规划和执行能力
产品部署策略
OpenAI 这次的发布节奏很有意思:
- ChatGPT/Codex:今天开始面向 Plus、Pro、Business、Enterprise 用户推出
- GPT-5.5 Pro:同步向 Pro、Business、Enterprise 用户推出
- API:”很快”会来,但需要额外的安全和保障措施
这个”API 延迟”释放了一个信号:GPT-5.5 的能力提升伴随着更大的安全风险,OpenAI 在 API 开放上持谨慎态度。官方提到这是”迄今为止最严格的安全保障措施”,包括针对高级网络安全和生物学能力的定向测试。
冷静看几个问题
1. API 什么时候来?
“very soon” 是多久?对于依赖 OpenAI API 构建产品的开发者来说,这个时间差意味着需要评估是否等待,还是先用 GPT-5.4 顶上。
2. 成本怎么算?
官方说 GPT-5.5 比 GPT-5.4 更高效,但更强的模型通常意味着更高的定价。目前只有 ChatGPT 订阅用户能用到,还没有公开的 API 定价。
3. 与 GPT-5.5 Pro 的区别
Pro 版本在 BrowseComp(90.1% vs 84.4%)和 FrontierMath Tier 4(39.6% vs 35.4%)上明显更强,但官方没有明确说明架构差异。是按规模区分的同一架构,还是不同的模型?这点对于开发者选型很重要。
对开发者意味着什么
GPT-5.5 的发布进一步验证了一个趋势:AI 竞争正在从”模型智能”转向”Agent 能力”。
单纯的 benchmark 分数已经不够看了。用户要的不是一个更聪明的聊天框,而是一个能嵌入现有工作流、连接现有工具、在后台默默干活的 Agent。
这也意味着,选择 AI 平台时,”能接入多少模型”和”能连接多少工具”同样重要。如果你在多个 AI 模型之间频繁切换,推荐试试 OfoxAI(ofox.ai)— 一个账号搞定 Claude、GPT、Gemini 等主流模型,省去多平台来回跳转的麻烦。
GPT-5.5 目前已经在 ChatGPT 和 Codex 中可用。对于 Agent 开发者来说,这是一个值得关注的里程碑 —— 不仅是模型能力的提升,更是 OpenAI 对”Agent 优先”产品路线的确认。
参考链接
- OpenAI 官方发布:Introducing GPT-5.5
- GPT-5.5 System Card:Safety Documentation
