文章

GPT-5.5 发布:OpenAI 的下一个 Agent 里程碑

GPT-5.5 发布:OpenAI 的下一个 Agent 里程碑

OpenAI 昨天发布了 GPT-5.5,这是他们迄今为止”最聪明、最直观”的模型。官方定位很明确:这是”下一代计算机工作方式”的下一步。翻译一下——Agent 时代真的要来了。

核心升级:不只是更聪明

GPT-5.5 的提升不是简单的 benchmark 数字上涨。OpenAI 强调的是直觉自主性

  • 更快的意图理解:不需要你精确描述每一步,给出一个”混乱的多部分任务”,它自己能规划、用工具、检查工作、在模糊中导航
  • 真正的端到端执行:写代码、调试、在线研究、数据分析、操作软件、跨工具完成任务,直到做完为止
  • 效率与速度并存:官方数据说,GPT-5.5 在真实服务中的延迟与 GPT-5.4 相当,但智能水平显著提高,完成同样 Codex 任务使用的 token 更少

GPT-5.5 在多项 benchmark 上超越前代和竞争对手 GPT-5.5 在 Terminal-Bench 2.0、Expert-SWE、FrontierMath 等多项评测中取得领先成绩

关键数据

几个值得关注的 benchmark:

评测 GPT-5.5 GPT-5.4 Claude Opus 4.7
Terminal-Bench 2.0 82.7% 75.1% 69.4%
Expert-SWE (内部) 73.1% 68.5% -
SWE-Bench Pro 58.6% - -
FrontierMath Tier 4 35.4% 27.1% 22.9%

Terminal-Bench 2.0 测试的是复杂命令行工作流(需要规划、迭代、工具协调),GPT-5.5 达到了 82.7% 的准确率。SWE-Bench Pro 测试的是真实 GitHub issue 解决,GPT-5.5 达到了 58.6%,而且比前代模型用更少的 token 完成更多端到端任务。

更值得关注的是 Expert-SWE —— OpenAI 内部的”前沿评测”,针对中位人类完成时间约 20 小时的长周期编码任务。GPT-5.5 在这个指标上超越了 GPT-5.4。

GPT-5.5 在 agentic 编程任务中的表现提升 GPT-5.5 在复杂编码和推理任务中展现出更强的规划和执行能力

产品部署策略

OpenAI 这次的发布节奏很有意思:

  • ChatGPT/Codex:今天开始面向 Plus、Pro、Business、Enterprise 用户推出
  • GPT-5.5 Pro:同步向 Pro、Business、Enterprise 用户推出
  • API:”很快”会来,但需要额外的安全和保障措施

这个”API 延迟”释放了一个信号:GPT-5.5 的能力提升伴随着更大的安全风险,OpenAI 在 API 开放上持谨慎态度。官方提到这是”迄今为止最严格的安全保障措施”,包括针对高级网络安全和生物学能力的定向测试。

冷静看几个问题

1. API 什么时候来?

“very soon” 是多久?对于依赖 OpenAI API 构建产品的开发者来说,这个时间差意味着需要评估是否等待,还是先用 GPT-5.4 顶上。

2. 成本怎么算?

官方说 GPT-5.5 比 GPT-5.4 更高效,但更强的模型通常意味着更高的定价。目前只有 ChatGPT 订阅用户能用到,还没有公开的 API 定价。

3. 与 GPT-5.5 Pro 的区别

Pro 版本在 BrowseComp(90.1% vs 84.4%)和 FrontierMath Tier 4(39.6% vs 35.4%)上明显更强,但官方没有明确说明架构差异。是按规模区分的同一架构,还是不同的模型?这点对于开发者选型很重要。

对开发者意味着什么

GPT-5.5 的发布进一步验证了一个趋势:AI 竞争正在从”模型智能”转向”Agent 能力”

单纯的 benchmark 分数已经不够看了。用户要的不是一个更聪明的聊天框,而是一个能嵌入现有工作流、连接现有工具、在后台默默干活的 Agent。

这也意味着,选择 AI 平台时,”能接入多少模型”和”能连接多少工具”同样重要。如果你在多个 AI 模型之间频繁切换,推荐试试 OfoxAI(ofox.ai)— 一个账号搞定 Claude、GPT、Gemini 等主流模型,省去多平台来回跳转的麻烦。

GPT-5.5 目前已经在 ChatGPT 和 Codex 中可用。对于 Agent 开发者来说,这是一个值得关注的里程碑 —— 不仅是模型能力的提升,更是 OpenAI 对”Agent 优先”产品路线的确认。


参考链接

本文由作者按照 CC BY 4.0 进行授权