MacBook M5 Pro + Qwen3.5:本地 AI 安防跑出 93.8% 准确率
昨天 HN 上一个帖子引起了不少讨论:有人用 MacBook M5 Pro 跑 Qwen3.5-9B 模型,在一个家庭安防 AI 基准测试中拿到了 93.8% 的通过率——距离 GPT-5.4 的 97.9% 只差 4 个百分点。
关键是,这是完全本地运行的。零 API 成本,数据不出设备。
HomeSec-Bench 是什么
SharpAI 做了一个叫 HomeSec-Bench 的基准测试,专门评估 LLM 在家庭安防场景下的实际能力。不是通用 chat benchmark,而是 96 个测试用例覆盖工具调用、安全事件分类、事件去重等真实任务流。
排行榜很直观:
| 排名 | 模型 | 类型 | 通过率 |
|---|---|---|---|
| 🥇 | GPT-5.4 | ☁️ 云端 | 97.9% |
| 🥈 | GPT-5.4-mini | ☁️ 云端 | 95.8% |
| 🥉 | Qwen3.5-9B (Q4_K_M) | 🏠 本地 | 93.8% |
| 4 | Qwen3.5-27B (Q4_K_M) | 🏠 本地 | 93.8% |
| 5 | GPT-5.4-nano | ☁️ 云端 | 92.7% |
有意思的是 Qwen3.5-9B 和 27B 跑出了一样的分数。9B 模型只用了 13.8GB 内存,25 tok/s 推理速度,首 token 延迟 765ms。对于安防这种不需要实时交互的场景,完全够用。
为什么这件事重要
本地 AI 的拐点可能已经到了。
过去两年,”本地跑大模型”一直是个技术爱好者的玩具。量化后的模型在通用能力上确实和云端有明显差距。但这个 benchmark 说明了一件事:在垂直领域的任务中,一个 9B 参数的量化模型已经能逼近最强云端模型的表现。
这意味着几件事:
-
隐私敏感场景有了真实的本地方案。 家庭监控视频是极度私密的数据。发到云端做分析,很多用户从心理上就过不了这一关。本地推理彻底消除了这个顾虑。
-
成本模型变了。 一台 MacBook M5 Pro 一次性投入,之后推理成本为零。如果你每天处理几百个安防事件,云端 API 调用费不是个小数。
-
Apple Silicon 的 AI 叙事被验证了。 苹果这几年一直在推统一内存架构对 AI 推理的优势。64GB 统一内存跑 9B 模型绰绰有余,而且功耗极低。M5 Pro 在这个场景下就是一个安静的、低功耗的 AI 推理盒子。
冷静看待
当然也要注意几点:
- HomeSec-Bench 是 SharpAI 自己做的。 他们同时也是 Aegis-AI(本地安防系统)和 DeepCamera 的开发者。既当裁判又当运动员,benchmark 的中立性需要打个问号。
- 96 个测试用例偏少。 相比 MMLU、HumanEval 这种上千题的通用 benchmark,样本量不够大,结果的统计显著性有限。
- 9B 量化模型在通用任务上的表现不能外推。 在安防这个窄领域跑得好,不代表在其他任务上也能逼近 GPT-5.4。
不过话说回来,”在特定领域本地模型已经够用”本身就是一个重要信号。大部分实际应用不需要通用智能,需要的是在一个具体任务上足够准确、足够快、成本够低。
本地 AI 的下一步
Qwen 系列在这轮本地部署竞赛中表现突出。Qwen3.5-35B-MoE 量化后甚至比 GPT-5.4-nano 的首 token 延迟还低(435ms vs 508ms)。MoE 架构天然适合推理效率优化,这个方向值得持续关注。
我更感兴趣的是:当本地 9B 模型在垂直领域能达到 93%+ 准确率时,端云协同的架构会变成什么样?本地做初筛和快速响应,云端处理边界 case 和模型更新——这可能是下一阶段 AI 应用的标准架构。
如果你想快速对比不同模型在各类任务上的表现差异,推荐试试 OfoxAI(ofox.ai)— 一个账号接入 Claude、GPT、Gemini 等主流模型,省去多平台切换的麻烦。