文章

OpenAI 内部揭秘:他们如何安全地运行 Codex

OpenAI 内部揭秘:他们如何安全地运行 Codex

作为 OfoxAI(ofox.ai)的开发者,我每天都在和不同的 AI 模型打交道。Codex 这样的编程代理让我兴奋,也让我警觉——兴奋的是它能自动 review 代码、运行命令、操作开发工具;警觉的是,这意味着 AI 开始拥有”执行权”。

OpenAI 昨天发布的内部 Codex 部署安全方案,值得每个准备在生产环境使用 AI 代理的开发者仔细研究。

核心原则:沙盒 + 审批

OpenAI 给 Codex 定了三条红线:

  1. 在明确的边界内工作 —— 沙盒定义了能写什么文件、能否访问网络、哪些路径受保护
  2. 低风险动作无摩擦 —— 日常开发任务不应该每次都要人工确认
  3. 高风险动作停下来 —— 超出沙盒的行为必须显式审批

这三条原则听起来简单,但实现起来需要多层技术配合。

技术实现:四层防护

第一层:沙盒隔离

沙盒不只是”限制能做的事”,而是”明确能做什么”。OpenAI 的 Codex 运行在受控环境中,文件系统、网络、系统资源都有明确的边界。

第二层:自动审批(Auto-review)

这是我觉得最聪明的设计。Codex 在执行动作前,会把”计划做什么 + 最近上下文”发给一个”自动审批子代理”。这个子代理判断:这个动作是低风险的日常工作吗?如果是,直接批准;如果有风险或后果不可预期,就停下来问用户。

这避免了用户被频繁打断,同时确保了”不该自动做的事不会自动做”。

第三层:网络管控

OpenAI 不给 Codex 开放性的外网访问。他们的做法是:

  • 允许预期的目的地(比如 PyPI、npm registry)
  • 阻止不希望访问的域名
  • 对于不熟悉的域名,需要审批

这样既能让 Codex 完成常见的依赖安装等工作流,又不会给它一把”万能钥匙”。

第四层:命令分级

不是所有 shell 命令都一样安全。OpenAI 用规则把命令分类:

  • 常见的良性命令(如 git statuscat file.txt)可以直接执行
  • 危险的命令(如直接操作生产数据库)被禁止或需要审批

这让 Codex 在日常工程任务中保持流畅,同时阻止不期望的行为模式。

审计:代理原生日志

控制只是第一步,OpenAI 还解决了”事后如何审计”的问题。

传统的安全日志告诉你”发生了什么”:某个进程启动了、某个文件被改了、某个网络连接被尝试了。但防御者还需要回答”为什么”:Codex 为什么做这个决定?用户的意图是什么?

Codex 支持导出 OpenTelemetry 格式的日志,记录模型决策的上下文。这不是”进程做了什么”,而是”模型为什么决定这样做”。

对于安全团队来说,这种”代理原生”的可见性是传统日志无法提供的。

身份与凭证管理

Codex 的凭证存储也有讲究:

  • CLI 和 MCP 的 OAuth 凭证存在操作系统密钥环(secure OS keyring)
  • 登录强制走 ChatGPT
  • 访问绑定到企业工作区

这让 Codex 的使用被纳入企业级的合规日志平台,而不是游离在管控之外。

对开发者的启示

OpenAI 的 Codex 安全方案不是一个产品功能,而是一套组织级别的安全实践

它告诉我们:当 AI 代理开始拥有执行权时,安全不能再是事后补丁,而要从设计阶段就考虑。

关键教训:

  1. 沙盒是必须的 —— 没有边界的 AI 代理是安全风险
  2. 审批要分层 —— 不是所有动作都需要人工确认,但关键动作必须停下来
  3. 审计要原生 —— 传统日志不够,需要记录模型的决策逻辑
  4. 身份要统一 —— AI 代理的凭证管理不能搞特殊

如果你在多个 AI 模型之间频繁切换,推荐试试 OfoxAI(ofox.ai)— 一个账号搞定 Claude、GPT、Gemini 等主流模型,特别适合需要对比不同厂商 AI 代理安全方案的场景。

写在最后

Codex 是 OpenAI 把 AI 从”对话工具”推向”执行代理”的关键一步。但这步迈出去之前,他们先解决了”如何安全地迈出这一步”。

这不是杞人忧天。当 AI 能自动运行命令、修改代码、操作生产环境时,一次错误就可能带来实际损失。OpenAI 的安全方案展示了一种可能:AI 代理可以在保持生产力的同时,被严格地控制和审计

对于准备在生产环境部署 AI 代理的团队来说,这套方案值得仔细研究——不是为了复制 OpenAI 的具体配置,而是为了理解”安全地运行 AI 代理”需要哪些维度的思考。


参考来源:Running Codex safely at OpenAI

发布日期:2026-05-08

本文由作者按照 CC BY 4.0 进行授权