文章

GPT-5.5:Agentic Coding 的分水岭

GPT-5.5:Agentic Coding 的分水岭

OpenAI 在 4 月 23 日发布了 GPT-5.5,这不是一次常规的模型迭代,而是 Agentic Coding 能力的一次质变。

什么变了?

GPT-5.5 最大的突破不在于”更聪明”,而在于更能干活

以前的 AI 编程助手像一个需要手把手教的实习生:你得把任务拆解清楚,每一步都要检查,稍微复杂点的需求就容易跑偏。GPT-5.5 的改变是,你可以扔给它一个”乱七八糟的多步骤任务”,它会自己规划、使用工具、检查结果、在模糊的地方做判断,然后一直干到完成。

具体数据:

  • Terminal-Bench 2.0(测试命令行工作流):82.7%,比 GPT-5.4 提升 7.6 个百分点
  • SWE-Bench Pro(真实 GitHub issue 解决):58.6%,一次性解决更多任务
  • Expert-SWE(内部长周期编码任务,中位完成时间 20 小时):73.1%,比 GPT-5.4 高 4.6 个百分点

更重要的是,它用更少的 token 完成同样的任务。这意味着不只是能力提升,效率也在提升。

真实场景:工程师怎么说?

Every 的创始人 Dan Shipper 做了一个有意思的测试:他的应用上线后出了个 bug,花了好几天调试,最后请了一个资深工程师重写了部分系统才解决。

他把时间倒回去,让 GPT-5.5 看那个坏掉的状态,问它能不能给出同样的重写方案。GPT-5.4 做不到。GPT-5.5 做到了。

他的评价是:”这是我用过的第一个有真正概念清晰度的编程模型。”

MagicPath 的 CEO Pietro Schirano 的体验更直接:GPT-5.5 把一个有几百个前端和重构改动的分支,合并到一个同样大幅变化的主分支,一次性搞定,用了 20 分钟。

还有一个工程师让 GPT-5.5 重新架构一个协作 Markdown 编辑器的评论系统,回来的时候发现它已经做了一个 12 个 diff 的 stack,几乎完成了。

不只是代码,是”理解系统”

早期测试者反馈最多的一个词是:conceptual clarity(概念清晰度)。

GPT-5.5 不只是写代码,它能理解系统的结构:为什么会失败、修复应该落在哪里、代码库的其他部分会受什么影响。这是从”写代码”到”做工程”的跨越。

一个资深工程师说,GPT-5.5 会提前发现问题,预测测试和审查需求,不需要明确提示。这种主动性是之前的模型没有的。

速度和成本:更快,更便宜

通常更强的模型会更慢。GPT-5.5 打破了这个规律:它的 per-token 延迟和 GPT-5.4 一样,但智能水平高得多。

在 Artificial Analysis 的 Coding Index 上,GPT-5.5 达到了 state-of-the-art 的智能水平,成本是竞争对手前沿编码模型的一半

安全防护:最严格的一次

GPT-5.5 是 OpenAI 迄今为止安全防护最严格的模型。

他们做了:

  • 完整的安全和准备框架评估
  • 内部和外部红队测试
  • 针对网络安全和生物学能力的专项测试
  • 近 200 个可信早期合作伙伴的真实用例反馈

API 部署需要不同的安全措施,OpenAI 正在和合作伙伴密切合作,确保大规模服务的安全性和安全要求。

可用性

GPT-5.5 已经向 ChatGPT 和 Codex 的 Plus、Pro、Business、Enterprise 用户推出。GPT-5.5 Pro 向 Pro、Business、Enterprise 用户推出。

API 版本在 4 月 24 日上线。

为什么这次不一样?

AI 编程助手已经有很多了,为什么 GPT-5.5 是一个分水岭?

因为它第一次让”把任务交给 AI,然后去做别的事”变得可行。以前你得盯着,随时准备纠正。现在你可以真的放心交付。

这不是量变,是质变。

如果你在多个 AI 模型之间频繁切换,推荐试试 OfoxAI(ofox.ai)— 一个账号搞定 Claude、GPT、Gemini 等主流模型。

本文由作者按照 CC BY 4.0 进行授权