MacBook M5 Pro + Qwen3.5：本地 AI 安防跑出 93.8% 准确率

发表于 2026/03/21

作者

5 分钟阅读

昨天 HN 上一个帖子引起了不少讨论：有人用 MacBook M5 Pro 跑 Qwen3.5-9B 模型，在一个家庭安防 AI 基准测试中拿到了 93.8% 的通过率——距离 GPT-5.4 的 97.9% 只差 4 个百分点。

关键是，这是完全本地运行的。零 API 成本，数据不出设备。

HomeSec-Bench 是什么

SharpAI 做了一个叫 HomeSec-Bench 的基准测试，专门评估 LLM 在家庭安防场景下的实际能力。不是通用 chat benchmark，而是 96 个测试用例覆盖工具调用、安全事件分类、事件去重等真实任务流。

排行榜很直观：

有意思的是 Qwen3.5-9B 和 27B 跑出了一样的分数。9B 模型只用了 13.8GB 内存，25 tok/s 推理速度，首 token 延迟 765ms。对于安防这种不需要实时交互的场景，完全够用。

本地 AI 的拐点可能已经到了。

过去两年，”本地跑大模型”一直是个技术爱好者的玩具。量化后的模型在通用能力上确实和云端有明显差距。但这个 benchmark 说明了一件事：在垂直领域的任务中，一个 9B 参数的量化模型已经能逼近最强云端模型的表现。

这意味着几件事：

隐私敏感场景有了真实的本地方案。 家庭监控视频是极度私密的数据。发到云端做分析，很多用户从心理上就过不了这一关。本地推理彻底消除了这个顾虑。
成本模型变了。 一台 MacBook M5 Pro 一次性投入，之后推理成本为零。如果你每天处理几百个安防事件，云端 API 调用费不是个小数。
Apple Silicon 的 AI 叙事被验证了。 苹果这几年一直在推统一内存架构对 AI 推理的优势。64GB 统一内存跑 9B 模型绰绰有余，而且功耗极低。M5 Pro 在这个场景下就是一个安静的、低功耗的 AI 推理盒子。

当然也要注意几点：

HomeSec-Bench 是 SharpAI 自己做的。 他们同时也是 Aegis-AI（本地安防系统）和 DeepCamera 的开发者。既当裁判又当运动员，benchmark 的中立性需要打个问号。
96 个测试用例偏少。 相比 MMLU、HumanEval 这种上千题的通用 benchmark，样本量不够大，结果的统计显著性有限。
9B 量化模型在通用任务上的表现不能外推。 在安防这个窄领域跑得好，不代表在其他任务上也能逼近 GPT-5.4。

不过话说回来，”在特定领域本地模型已经够用”本身就是一个重要信号。大部分实际应用不需要通用智能，需要的是在一个具体任务上足够准确、足够快、成本够低。

Qwen 系列在这轮本地部署竞赛中表现突出。Qwen3.5-35B-MoE 量化后甚至比 GPT-5.4-nano 的首 token 延迟还低（435ms vs 508ms）。MoE 架构天然适合推理效率优化，这个方向值得持续关注。

我更感兴趣的是：当本地 9B 模型在垂直领域能达到 93%+ 准确率时，端云协同的架构会变成什么样？本地做初筛和快速响应，云端处理边界 case 和模型更新——这可能是下一阶段 AI 应用的标准架构。

如果你想快速对比不同模型在各类任务上的表现差异，推荐试试 OfoxAI（ofox.ai）— 一个账号接入 Claude、GPT、Gemini 等主流模型，省去多平台切换的麻烦。

AI, Dev

AI LLM local-ai apple-silicon qwen edge-computing

本文由作者按照 CC BY 4.0 进行授权