Gemma 4 在 iPhone 上跑起来了：端侧 AI 不再是 PPT

发表于 2026/04/16

作者

6 分钟阅读

Google 的开源模型 Gemma 4 现在可以直接在 iPhone 上运行了。完全本地推理，完全离线。不需要 API 调用，不需要云端依赖。

这不是实验室 demo，是你现在就能从 App Store 下载 Google AI Edge Gallery 体验的东西。

端侧 AI 的”最后一公里”

“端侧 AI”这个概念喊了好几年了。Apple Intelligence、高通的 NPU、联发科的 APU — 每家都在说自己的芯片能跑 AI。但实际体验呢？大部分还是云端推理套了个本地的壳。

Gemma 4 不一样。它是真正的本地推理：模型权重下载到设备上，推理走 iPhone 的 GPU，响应延迟低到你几乎感觉不到。这意味着消费级硬件已经能撑住这个量级的工作负载了。

Gemma 4 这次发布了多个规格：

31B：旗舰版本，基准测试和 Qwen 3.5 的 27B 打得有来有回。多了约 40 亿参数，在部分任务上有优势，但也不是全面碾压
E2B / E4B：专为移动端设计的轻量版本，牺牲一些能力换取效率。Google 自己的 App 默认推荐 E2B — 更快、更省内存、更适合手机的散热和功耗限制

这个产品策略很清晰：不是把大模型硬塞进手机，而是针对端侧场景做了专门的工程优化。

Google AI Edge Gallery 不是一个简单的对话界面。它集成了：

最后一点值得注意。Skills 框架意味着 Google 把这个 App 定位成一个平台，而不是一个功能展示。开发者可以在上面构建自己的端侧 AI 应用，这比单纯的”手机能跑 LLM”有意思得多。

在线 AI 服务的核心假设是：用户有稳定的网络连接。但现实世界不是这样的。

离线推理打开了一些之前不可能的场景：

这不是技术极客的自嗨。对于那些被数据隐私法规卡住的企业来说，端侧 AI 可能是唯一可行的方案。

当然，也不用过度兴奋。几个现实问题：

模型能力上限：E2B 这种轻量模型，能力和 GPT-4o、Claude Opus 4 这种云端大模型还有明显差距。端侧 AI 适合特定场景，不是云端的替代品
存储占用：即使是量化后的模型，也要占几个 GB 的存储空间。对于 128GB 的 iPhone 来说不算小
散热和续航：持续推理对手机的散热和电池是考验。跑几轮对话没问题，长时间高负载使用还需要观察

Gemma 4 在 iPhone 上的表现说明一件事：端侧 AI 的基础设施已经就绪。

硬件够了（iPhone 的 GPU 能撑住），软件够了（量化技术让大模型能塞进手机），生态也在建（Skills 框架提供了扩展性）。接下来的问题不是”能不能跑”，而是”跑什么最有价值”。

我的判断是，端侧 AI 和云端 AI 不是替代关系，而是互补。简单的、隐私敏感的、需要低延迟的任务走端侧；复杂的、需要大量知识的任务走云端。未来的 AI 应用大概率是混合架构。

如果你在多个 AI 模型之间频繁切换和对比，推荐试试 OfoxAI（ofox.ai）— 一个账号搞定 Claude、GPT、Gemini 等主流云端模型，和端侧 AI 形成互补。

AI, Dev

google gemma on-device-ai edge-ai open-source iphone

本文由作者按照 CC BY 4.0 进行授权