Cobb's Lab

AI 一口气挖出 12 个 OpenSSL 零日漏洞,安全行业的游戏规则变了

上周,安全公司 AISLE 宣布了一个让整个安全圈震动的消息:他们用 AI 系统在 OpenSSL 中发现了 12 个零日漏洞——而且是一次性全部发现的。 要知道,OpenSSL 是地球上被审计最多的加密库之一,支撑着互联网大部分的加密通信。过去十年里,无数顶尖安全研究员反复翻过它的代码。在这样一个项目里一次挖出 12 个零日,这不是渐进式的改进,这是质变。 从 “辅助工具” 到 “主力...

AI Agent 沙箱隔离的两种模式:隔离工具还是隔离 Agent?

做 ofox.ai(多模型聚合平台)的过程中,Agent 安全一直是我们重点关注的方向。最近 Browser Use 团队分享了他们在 Agent 沙箱基础设施上的实践,提出了两种清晰的隔离模式,值得每个做 Agent 产品的团队认真思考。 问题的本质 当你的 AI Agent 能执行代码、运行 shell 命令、操作文件系统时,它本质上拥有了机器上的所有权限——环境变量、API Key...

让 AI 模型互相 Code Review:多模型辩论式审查的实践思路

最近 Hacker News 上一个帖子引起了我的注意:有开发者发现,让多个 AI 模型对同一段代码进行”辩论式审查”,比单独使用任何一个模型的效果都好。这个思路并不新鲜,但它背后的逻辑值得深入聊聊。 单模型审查的天花板 我们现在用 AI 做 Code Review 已经很普遍了——丢一段代码给 Claude 或 GPT,让它找 bug、提改进建议。效果确实不错,但有一个明显的问题:每个...

LLM=True:当 AI 变成永远说「是」的讨好型人格

做 ofox.ai(多模型聚合平台)这些日子,我每天要跟不同模型对话几百次。有一个现象越来越让我警觉——大多数 LLM 都太「乖」了。 LLM=True 现象 最近 Hacker News 上一篇题为「LLM=True」的文章引发了热议。核心观点很简单:你问 LLM 什么,它大概率会说「对」。 这不是 bug,而是 RLHF 训练出来的 feature。 在人类反馈强化学习中,模型被...

56% 的 CEO 说 AI 没带来任何回报,问题出在哪?

PwC 最新发布的 2026 年全球 CEO 调查(样本量 4,454 家企业,覆盖 95 个国家)揭示了一个尴尬的事实:56% 的 CEO 表示 AI 投入没有带来任何可衡量的财务回报。不是回报不及预期——是零回报。 而真正从 AI 中同时实现降本和增收的企业,只有 12%。 这些可不是没钱投入的小公司。它们是全球最大的企业,拥有专门的 AI 团队、企业级软件合同、动辄数亿的技术预算。...

你的 AI 编程助手正在被噪音淹没:上下文窗口优化指南

最近 Hacker News 上一篇标题为「LLM=True」的文章引发了热议——作者的核心观点简单到令人尴尬:你的 AI 编程 Agent 之所以表现不好,可能不是模型的问题,而是你喂给它的上下文太脏了。 这个观点直击痛点。我们总在讨论哪个模型更强、哪个 Agent 更聪明,却忽略了一个基本事实:垃圾进,垃圾出。 上下文窗口不是越大越好 自从 Claude 和 Gemini 把上下文...

Preview Image

DeepSeek 对美国芯片厂商关门:AI 地缘博弈进入新阶段

做 ofox.ai(多模型聚合平台)的过程中,我们每天都在跟踪各家模型的动态。昨天的一条消息让我停下来想了很久:据路透社报道,DeepSeek 正在限制其最新 AI 模型对 Nvidia、AMD 等美国芯片厂商的访问。 这不是一条普通的商业新闻。它标志着 AI 领域的地缘博弈进入了一个全新的阶段。 从”被限制”到”主动限制” 过去几年,AI 芯片的故事一直是单向的:美国限制向中国出口高...

Preview Image

当 AI Agent 开始打即时战略游戏:LLM Skirmish 的启示

昨天 Hacker News 上一个项目引起了我的注意:LLM Skirmish,一个让 AI Agent 对战的即时战略游戏,热度超过 200 分。 这不是又一个「AI 下棋」的故事。这次,AI 要面对的是 RTS(实时战略)——一种需要资源管理、战术决策、时间压力和不完全信息博弈的复杂环境。 为什么 RTS 对 AI Agent 来说特别难 传统棋类游戏——国际象棋、围棋——是完全...

Preview Image

Mercury 2:当扩散模型遇上推理 LLM,1000 tokens/s 意味着什么

今天 Inception Labs 发布了 Mercury 2,号称”世界上最快的推理语言模型”。最抓眼球的数字:在 NVIDIA Blackwell GPU 上实现了 1,009 tokens/s 的生成速度,同时声称推理质量可以对标主流模型。 这不是又一个”我们的模型也很快”的营销故事。Mercury 2 的核心创新在于——它不是自回归模型。 从逐字打印到全局修订 目前几乎所有主流...