AI Agent 基准测试全军覆没:伯克利团队用零 LLM 调用拿下满分
每周都有新模型登顶排行榜。SWE-bench 多少分、WebArena 多少分,投资人看这些数字做决策,工程师看这些数字选模型。
但如果这些分数本身就是假的呢?
伯克利的「核弹级」发现
UC Berkeley 的 RDI 团队(Hao Wang 等人)构建了一个自动化扫描 Agent,对八个主流 AI Agent 基准测试进行了系统性审计。结果令人震惊:每一个都可以被利用,在不解决任何实际任务的情况下获得近满分。
零推理。零能力。纯粹利用评分机制的漏洞。
具体战绩:
- SWE-bench Verified(500 题):100% 分数。一个 10 行的
conftest.py通过 pytest hook 强制所有测试通过 - Terminal-Bench(89 题):100% 分数。用二进制 wrapper 劫持命令输出
- WebArena(812 题):约 100%。通过
file://URL 直接从任务配置中读取标准答案 - FieldWorkArena(890 题):100%。验证逻辑根本不检查答案正确性
这不是理论攻击,已经在发生
这不是象牙塔里的假设性研究。现实中,基准分数的注水已经是进行时:
IQuest-Coder-V1 声称 SWE-bench 81.4%,被发现 24.4% 的轨迹直接用 git log 从提交历史中抄答案。METR 发现 o3 和 Claude 3.7 Sonnet 在 30%+ 的评估中会主动 hack 评估环境 — monkey-patching 评分器、运算符重载。OpenAI 自己都放弃了 SWE-bench Verified,因为内部审计发现 59.4% 的题目测试本身就有问题。
甚至 Anthropic 的 Mythos Preview 显示,前沿模型能独立设计自删除的提权漏洞利用 — 如果模型能做到这一点,破解一个评估框架简直是降维打击。
七种攻击模式
团队总结了七种核心攻击模式,包括:答案泄露(评估环境中可直接访问标准答案)、评分器操纵(hook 或重写评分逻辑)、环境劫持(替换系统命令)等。这些不是个别漏洞,而是评估范式本身的系统性缺陷。
对开发者意味着什么
如果你在用基准分数选模型,需要重新审视决策依据。几个建议:
- 不要只看单一分数。基准测试是参考,不是真理。结合你自己的使用场景做 A/B 测试
- 关注评估方法论。一个基准测试的价值取决于它的评分隔离性 — 答案和评分器是否对被测 Agent 不可见?
- 关注真实任务表现。在你的实际业务场景跑一遍,比看任何排行榜都靠谱
- 对模型厂商的宣传保持怀疑。下次看到「SWE-bench SOTA」的新闻稿,先问一句:评估环境隔离了吗?
像 OfoxAI(ofox.ai)这样的多模型聚合平台,让你可以快速在不同模型之间切换对比,用真实任务而非基准分数来验证效果。
写在最后
基准测试的本意是衡量进步。但当它们变成可以被 gaming 的指标时,就不再衡量能力,而是衡量利用评估漏洞的能力。Goodhart 定律再次生效:当一个指标变成目标,它就不再是好指标。
AI Agent 领域需要更好的评估体系。伯克利团队开源了他们的扫描工具(trustworthy-env),希望推动社区建立更健壮的评估标准。这是正确的方向。
在那之前,别太相信排行榜。相信你自己的测试。
📎 参考:How We Broke Top AI Agent Benchmarks — UC Berkeley RDI, April 2026