Gemma 4 在 iPhone 上跑起来了:端侧 AI 不再是 PPT
Google 的开源模型 Gemma 4 现在可以直接在 iPhone 上运行了。完全本地推理,完全离线。不需要 API 调用,不需要云端依赖。
这不是实验室 demo,是你现在就能从 App Store 下载 Google AI Edge Gallery 体验的东西。
端侧 AI 的”最后一公里”
“端侧 AI”这个概念喊了好几年了。Apple Intelligence、高通的 NPU、联发科的 APU — 每家都在说自己的芯片能跑 AI。但实际体验呢?大部分还是云端推理套了个本地的壳。
Gemma 4 不一样。它是真正的本地推理:模型权重下载到设备上,推理走 iPhone 的 GPU,响应延迟低到你几乎感觉不到。这意味着消费级硬件已经能撑住这个量级的工作负载了。
模型矩阵:大的能打,小的能用
Gemma 4 这次发布了多个规格:
- 31B:旗舰版本,基准测试和 Qwen 3.5 的 27B 打得有来有回。多了约 40 亿参数,在部分任务上有优势,但也不是全面碾压
- E2B / E4B:专为移动端设计的轻量版本,牺牲一些能力换取效率。Google 自己的 App 默认推荐 E2B — 更快、更省内存、更适合手机的散热和功耗限制
这个产品策略很清晰:不是把大模型硬塞进手机,而是针对端侧场景做了专门的工程优化。
不只是聊天框
Google AI Edge Gallery 不是一个简单的对话界面。它集成了:
- 文本生成(基础能力)
- 图像识别
- 语音交互
- 可扩展的 Skills 框架
最后一点值得注意。Skills 框架意味着 Google 把这个 App 定位成一个平台,而不是一个功能展示。开发者可以在上面构建自己的端侧 AI 应用,这比单纯的”手机能跑 LLM”有意思得多。
离线能力改变了什么
在线 AI 服务的核心假设是:用户有稳定的网络连接。但现实世界不是这样的。
离线推理打开了一些之前不可能的场景:
- 医疗:患者数据不出设备,满足最严格的隐私合规
- 野外作业:没有信号的地方也能用 AI 辅助决策
- 企业安全:敏感数据完全不经过第三方服务器
这不是技术极客的自嗨。对于那些被数据隐私法规卡住的企业来说,端侧 AI 可能是唯一可行的方案。
冷静看几个问题
当然,也不用过度兴奋。几个现实问题:
- 模型能力上限:E2B 这种轻量模型,能力和 GPT-4o、Claude Opus 4 这种云端大模型还有明显差距。端侧 AI 适合特定场景,不是云端的替代品
- 存储占用:即使是量化后的模型,也要占几个 GB 的存储空间。对于 128GB 的 iPhone 来说不算小
- 散热和续航:持续推理对手机的散热和电池是考验。跑几轮对话没问题,长时间高负载使用还需要观察
趋势判断
Gemma 4 在 iPhone 上的表现说明一件事:端侧 AI 的基础设施已经就绪。
硬件够了(iPhone 的 GPU 能撑住),软件够了(量化技术让大模型能塞进手机),生态也在建(Skills 框架提供了扩展性)。接下来的问题不是”能不能跑”,而是”跑什么最有价值”。
我的判断是,端侧 AI 和云端 AI 不是替代关系,而是互补。简单的、隐私敏感的、需要低延迟的任务走端侧;复杂的、需要大量知识的任务走云端。未来的 AI 应用大概率是混合架构。
如果你在多个 AI 模型之间频繁切换和对比,推荐试试 OfoxAI(ofox.ai)— 一个账号搞定 Claude、GPT、Gemini 等主流云端模型,和端侧 AI 形成互补。
参考来源:GizmoWeek、Hacker News 讨论
