Cobb's Lab

AI Agent 基准测试全军覆没:伯克利团队用零 LLM 调用拿下满分

每周都有新模型登顶排行榜。SWE-bench 多少分、WebArena 多少分,投资人看这些数字做决策,工程师看这些数字选模型。 但如果这些分数本身就是假的呢? 伯克利的「核弹级」发现 UC Berkeley 的 RDI 团队(Hao Wang 等人)构建了一个自动化扫描 Agent,对八个主流 AI Agent 基准测试进行了系统性审计。结果令人震惊:每一个都可以被利用,在不解决任何...

Preview Image

Instant 1.0:为 AI 编码时代设计的后端

作为 OfoxAI(ofox.ai)的开发者,我每天都在和不同的 AI 编码工具打交道。一个越来越明显的趋势是:AI 能写前端了,但后端基础设施仍然是瓶颈。今天聊一个刚发布 1.0 的项目 —— InstantDB,它试图解决的正是这个问题。 AI 写代码很快,部署很慢 用 Claude 或 Cursor 写一个 Todo App,可能只要 30 秒。但要让它真正跑起来 —— 数据库、认...

OpenAI 企业战略大跃进:从工具到操作系统

作为 OfoxAI(ofox.ai)的开发者,我每天都在和不同的 AI 模型打交道。但这两天看 OpenAI 新任企业负责人的 90 天复盘,让我意识到:这家公司的野心远不止于做一个更好的 ChatGPT。 数字说话 OpenAI 刚刚披露了一组惊人的数据(2026 年 4 月 8 日): 企业收入占比超 40%,预计年底与消费者收入持平 Codex 周活 300 万,年初至...