
GPT-5.5 Instant 发布:OpenAI 终于学会了「少即是多」
OpenAI 在 5 月 5 日正式推送了 GPT-5.5 Instant,作为 ChatGPT 的默认模型向所有用户开放。这次更新没有宏大的架构革新,也没有参数量的跃迁,但却是过去一年里对日常用户体验影响最大的一次迭代。 核心就一句话:让回答更准确,同时让废话更少。 GPT-5.5 Instant 官方发布页面 更准:幻觉率下降 52.5% 根据 OpenAI 的内部评估,GPT...

OpenAI 在 5 月 5 日正式推送了 GPT-5.5 Instant,作为 ChatGPT 的默认模型向所有用户开放。这次更新没有宏大的架构革新,也没有参数量的跃迁,但却是过去一年里对日常用户体验影响最大的一次迭代。 核心就一句话:让回答更准确,同时让废话更少。 GPT-5.5 Instant 官方发布页面 更准:幻觉率下降 52.5% 根据 OpenAI 的内部评估,GPT...

Anthropic 在 4 月 17 日发布了 Claude Design,这是继 Claude Code 之后的又一个垂直产品。它让 Claude 从代码生成延伸到了视觉设计领域 — 你可以用自然语言描述需求,Claude 会生成原型、幻灯片、落地页等视觉作品。 为什么需要 AI 设计工具 设计师的时间是有限的。即使是经验丰富的设计师,也很少有机会为一个需求探索十几个方向 — 通常只能...

4 月 16 日,Anthropic 发布了 Claude Opus 4.7,这是继 Opus 4 之后的又一次重大升级。这次更新的重点不是参数规模的堆叠,而是在代码生成、Agent 任务、视觉理解和多步推理上的全面强化。 核心改进:更强的一致性和完整性 Opus 4.7 的最大亮点是任务完成的彻底性(thoroughness)和一致性(consistency)。之前的模型在处理复杂任务...

作为 OfoxAI(ofox.ai)的开发者,我每天都在和各种 AI 框架打交道。4月30日发生的 PyTorch Lightning 供应链攻击事件,让我意识到即使是最成熟的开源生态,也可能在一瞬间成为攻击者的目标。 事件回顾 PyTorch Lightning 是深度学习领域最流行的框架之一,被广泛用于图像分类、LLM 微调、扩散模型训练等场景。4月30日,攻击者成功入侵了该项目的 ...
OpenAI 在 4 月 23 日发布了 GPT-5.5,这是他们迄今为止最聪明、最直观的模型。不是又一次参数堆叠,而是一次能力跃迁 — 从”回答问题”到”完成工作”。 不只是更聪明,是更会干活 GPT-5.5 的核心突破在于 agentic intelligence(智能体能力)。它不再需要你把任务拆解成一步步的指令,而是能理解你的意图,自己规划路径,使用工具,检查结果,遇到歧义时自己...

Anthropic 在 4 月 16 日发布了 Claude Opus 4.7,这不仅是一次性能升级,更是 AI 安全领域的一次重要实验。 性能提升:从监督到放手 Opus 4.7 在软件工程任务上的表现让人印象深刻。早期测试者反馈,那些以前需要密切监督的复杂编码任务,现在可以放心交给 Opus 4.7 独立完成。模型在处理长时间运行的任务时表现出更强的严谨性和一致性,能够精确遵循指令,...
OpenAI 在 4 月 27 日开源了 Symphony — 一个把项目管理工具(如 Linear)变成 AI Agent 调度中心的系统。这不是又一个”AI 编程助手”,而是对软件开发工作流的重新设计。 问题:AI 编程助手的天花板 即使 AI 编程能力越来越强,使用方式还是”交互式”的:你打开一个 Codex 会话,分配任务,检查输出,调整方向,重复。 OpenAI 内部发现,工...
OpenAI 在 4 月 23 日发布了 GPT-5.5,这不是一次常规的模型迭代,而是 Agentic Coding 能力的一次质变。 什么变了? GPT-5.5 最大的突破不在于”更聪明”,而在于更能干活。 以前的 AI 编程助手像一个需要手把手教的实习生:你得把任务拆解清楚,每一步都要检查,稍微复杂点的需求就容易跑偏。GPT-5.5 的改变是,你可以扔给它一个”乱七八糟的多步骤任...

Anthropic 在 4 月 16 日发布了 Claude Opus 4.7,这是继 Opus 4.6 之后的又一次重要迭代。这次更新不只是性能数字的提升,更重要的是两个方向上的突破:代码任务的可靠性和网络安全防护的实战落地。 代码能力:从”需要监督”到”可以放心交付” Opus 4.7 在软件工程任务上的提升,用户反馈最多的词是”可以放心交付”。这不是说它写代码更快,而是它在处理复杂...

上周一条推文在 HN 上炸了 700+ 赞:「An AI agent deleted our production database」。一个 AI Agent 在自主执行任务时,误判了 DROP TABLE 的语义,直接把生产库干掉了。 这不是段子,是正在发生的现实。 四十年的隐性契约被打破了 Arpit Bhayani 在最近的文章中指出了一个被忽视的根本问题:数据库架构的所有设计假...