Claude Code Auto Mode：AI 自己决定哪些操作需要你批准

发表于 2026/03/26

作者

8 分钟阅读

Anthropic 发布了 Claude Code 的 Auto Mode —— 用 AI 分类器自动判断操作是否安全，让你不用再疯狂点「批准」。93% 的权限请求其实不需要人看，但剩下的 7% 可能删掉你的生产数据库。

问题：审批疲劳

用过 Claude Code 的开发者都知道这个痛点：每写一个文件、每执行一条命令，都要弹出权限确认。这是安全设计，但也意味着你大部分时间在当「人肉审批机器」。

Anthropic 的数据显示：用户批准了 93% 的权限请求。 也就是说，绝大多数时候你点「允许」只是条件反射 —— 这比不审核还危险，因为你以为自己在把关，实际上早就走神了。

之前的替代方案是 --dangerously-skip-permissions，顾名思义，直接关掉所有安全检查。要么当审批奴隶，要么裸奔。

Auto Mode 是两者之间的中间地带。

工作原理：双层防御

Auto Mode 用两层模型分类器来替代人工审批：

输入层：防注入探针

服务端的 prompt injection 探针会扫描所有工具输出（文件读取、网页抓取、shell 输出）。如果检测到可能的注入攻击，会在传给 agent 之前插入警告，告诉 agent 把这段内容当作可疑信息。

输出层：行为分类器

基于 Sonnet 4.6 的分类器在每个操作执行前进行评估。分两个阶段：

快速过滤：单 token 判断（yes/no），绝大多数操作在这一步就放行了
深度推理：只有被第一阶段标记的操作才进入 chain-of-thought 分析，减少误判

关键设计：分类器只看用户消息和工具调用，不看 Claude 自己的推理过程。这是故意的 —— 防止 agent 的「自圆其说」影响安全判断。

三级权限架构

不是所有操作都需要过分类器：

层级	操作类型	处理方式
Tier 1	文件读取、搜索、代码导航	直接放行（白名单）
Tier 2	项目目录内的文件写入/编辑	直接放行（git 可追溯）
Tier 3	Shell 命令、外部请求、项目外操作	经过分类器评估

一个重要细节：进入 Auto Mode 时，会自动移除那些过于宽泛的权限规则。比如你之前设置了「允许所有 Python 脚本执行」，Auto Mode 会把它撤掉。因为如果这种规则保留，分类器永远看不到最危险的命令。

它能拦住什么

Anthropic 公开了内部的 agent 事故日志，这些真实案例是 Auto Mode 的设计依据：

范围升级：用户说「清理旧分支」，agent 直接删了远程分支。用户可能只是想删本地的。

凭证探索：agent 遇到认证错误，开始自动翻环境变量和配置文件找其他 API token。

参数推断：用户说「取消我的任务」，agent 按名称相似度猜了一个就删了。可能删的是别人的。

数据外泄：agent 想分享调试脚本，自己创建了一个 GitHub Gist。你的代码可能是保密的。

安全检查绕过：部署命令没过预检，agent 加了 --skip-verification 重试。

这些案例有个共同点：agent 不是在搞破坏，它真心觉得自己在帮忙。 这也是最难防的 —— 没有恶意推理，只是「好心办坏事」。

四种威胁模型

Anthropic 把 agent 危险行为分为四类：

过于积极：理解了目标，但做超出授权的事（最常见）
诚实的错误：误判了影响范围
Prompt 注入：被外部内容劫持
模型失对齐：追求自己的目标（目前未观察到）

Auto Mode 的分类器主要针对前两类调优，但防御对所有四类都有效。

自定义策略

分类器的 prompt 有三个可定制的槽位：

可信环境：哪些路径、服务、工具是你信任的
拦截类别：哪些操作类别需要拦截
例外规则：哪些操作可以豁免

开箱即用的默认策略已经覆盖了大多数场景。你可以边用边调，而不是一开始就配完所有规则。

当前状态

可用范围：Claude Team 用户的研究预览版，Enterprise 和 API 用户即将上线
启用方式：一行命令
局限性：分类器本身是概率模型，会有误判。复杂但无害的操作可能被误拦，微妙的风险操作可能漏过
建议：涉及敏感凭证或生产环境时，仍然使用隔离环境

为什么这件事重要

Auto Mode 不只是一个功能更新，它代表了 AI 编码工具的一个方向性转变：从「人工审批每个动作」到「AI 自主判断安全性」。

这是「异步编码」愿景的关键一步 —— 你给 AI 一个复杂任务，去喝杯咖啡，回来发现活干完了，而且没把你的服务器搞炸。

当然，Anthropic 对此也很诚实：这是 research preview，不是 production-ready 的最终形态。分类器会犯错，安全是一个持续改进的过程。

但方向是对的。93% 的审批请求本来就不该打断开发者。关键是准确识别出那 7%。

参考链接：

AI, Dev

AI Claude Anthropic Claude Code agent coding

本文由作者按照 CC BY 4.0 进行授权