文章

MacBook M5 Pro + Qwen3.5:本地 AI 安防跑出 93.8% 准确率

MacBook M5 Pro + Qwen3.5:本地 AI 安防跑出 93.8% 准确率

昨天 HN 上一个帖子引起了不少讨论:有人用 MacBook M5 Pro 跑 Qwen3.5-9B 模型,在一个家庭安防 AI 基准测试中拿到了 93.8% 的通过率——距离 GPT-5.4 的 97.9% 只差 4 个百分点。

关键是,这是完全本地运行的。零 API 成本,数据不出设备。

HomeSec-Bench 是什么

SharpAI 做了一个叫 HomeSec-Bench 的基准测试,专门评估 LLM 在家庭安防场景下的实际能力。不是通用 chat benchmark,而是 96 个测试用例覆盖工具调用、安全事件分类、事件去重等真实任务流。

排行榜很直观:

排名 模型 类型 通过率
🥇 GPT-5.4 ☁️ 云端 97.9%
🥈 GPT-5.4-mini ☁️ 云端 95.8%
🥉 Qwen3.5-9B (Q4_K_M) 🏠 本地 93.8%
4 Qwen3.5-27B (Q4_K_M) 🏠 本地 93.8%
5 GPT-5.4-nano ☁️ 云端 92.7%

有意思的是 Qwen3.5-9B 和 27B 跑出了一样的分数。9B 模型只用了 13.8GB 内存,25 tok/s 推理速度,首 token 延迟 765ms。对于安防这种不需要实时交互的场景,完全够用。

为什么这件事重要

本地 AI 的拐点可能已经到了。

过去两年,”本地跑大模型”一直是个技术爱好者的玩具。量化后的模型在通用能力上确实和云端有明显差距。但这个 benchmark 说明了一件事:在垂直领域的任务中,一个 9B 参数的量化模型已经能逼近最强云端模型的表现。

这意味着几件事:

  1. 隐私敏感场景有了真实的本地方案。 家庭监控视频是极度私密的数据。发到云端做分析,很多用户从心理上就过不了这一关。本地推理彻底消除了这个顾虑。

  2. 成本模型变了。 一台 MacBook M5 Pro 一次性投入,之后推理成本为零。如果你每天处理几百个安防事件,云端 API 调用费不是个小数。

  3. Apple Silicon 的 AI 叙事被验证了。 苹果这几年一直在推统一内存架构对 AI 推理的优势。64GB 统一内存跑 9B 模型绰绰有余,而且功耗极低。M5 Pro 在这个场景下就是一个安静的、低功耗的 AI 推理盒子。

冷静看待

当然也要注意几点:

  • HomeSec-Bench 是 SharpAI 自己做的。 他们同时也是 Aegis-AI(本地安防系统)和 DeepCamera 的开发者。既当裁判又当运动员,benchmark 的中立性需要打个问号。
  • 96 个测试用例偏少。 相比 MMLU、HumanEval 这种上千题的通用 benchmark,样本量不够大,结果的统计显著性有限。
  • 9B 量化模型在通用任务上的表现不能外推。 在安防这个窄领域跑得好,不代表在其他任务上也能逼近 GPT-5.4。

不过话说回来,”在特定领域本地模型已经够用”本身就是一个重要信号。大部分实际应用不需要通用智能,需要的是在一个具体任务上足够准确、足够快、成本够低。

本地 AI 的下一步

Qwen 系列在这轮本地部署竞赛中表现突出。Qwen3.5-35B-MoE 量化后甚至比 GPT-5.4-nano 的首 token 延迟还低(435ms vs 508ms)。MoE 架构天然适合推理效率优化,这个方向值得持续关注。

我更感兴趣的是:当本地 9B 模型在垂直领域能达到 93%+ 准确率时,端云协同的架构会变成什么样?本地做初筛和快速响应,云端处理边界 case 和模型更新——这可能是下一阶段 AI 应用的标准架构。


如果你想快速对比不同模型在各类任务上的表现差异,推荐试试 OfoxAI(ofox.ai)— 一个账号接入 Claude、GPT、Gemini 等主流模型,省去多平台切换的麻烦。

本文由作者按照 CC BY 4.0 进行授权