iPhone 17 Pro 跑 400B 大模型：端侧 AI 的暴力美学

发表于 2026/03/24

作者

5 分钟阅读

今天 HN 上一条推文炸了：开发者 anemll 演示了 iPhone 17 Pro 直接运行一个 400B 参数的大语言模型，热度 599 分，评论区直接炸开。

一年前这事儿还被认为”不可能”。现在它发生了。

这到底是怎么做到的

关键词：MoE（Mixture of Experts）+ SSD 流式加载。

400B 参数听起来吓人，但这是一个 MoE 架构的模型 —— 并非所有参数同时激活。实际推理时，只有一部分”专家”被调用，活跃参数量远小于 400B。这是第一个前提。

第二个前提是 Apple 在 2023 年发表的论文 LLM in a Flash。核心思路：把模型参数存在闪存（SSD）上，推理时按需流式加载到 GPU 显存。iPhone 17 Pro 的 NVMe 闪存读取速度够快，配合智能的预取策略，可以让 GPU 在等数据的间隙几乎无感。

简单说：不是把 400B 全塞进内存，而是把 SSD 当成超大号的虚拟显存。

HN 评论区有一条说得好：「Apple might just win the AI race without even running in it.」

Apple 不做最强的模型，但它做最多的设备。全球超过 10 亿台活跃 iPhone。如果端侧能跑足够大的模型，那：

这不是”能不能跑”的问题，是”跑到什么程度可用”的问题。从演示来看，400B MoE 在 iPhone 17 Pro 上已经能生成连贯文本，虽然速度还不够日常使用，但方向已经明确。

有人会问：端侧跑大模型，是不是 OpenAI、Anthropic 这些云端 API 就没用了？

不会。至少短期内不会。

端侧模型的优势在低延迟、强隐私、零成本推理，但劣势同样明显：算力天花板低，模型更新慢（需要 OTA 推送），多模态能力受限。

真正的未来是混合推理：简单任务端侧处理，复杂任务上云。就像现在的照片处理 —— 基础滤镜本地做，AI 修图传云端。

对开发者来说，这意味着需要同时掌握端侧部署和云端 API 两条路线。模型选择会变得更复杂，不同场景用不同模型、不同部署方式。

iPhone 17 Pro 跑 400B 是一个标志性事件，但离普通用户日常使用还有距离。真正的转折点会在：

我估计 2027 年，端侧会成为 AI 应用的默认部署方式之一，而不只是实验室演示。

如果你现在需要在 Claude、GPT、Gemini 等不同模型之间灵活切换测试，推荐试试 OfoxAI（ofox.ai）—— 一个账号聚合主流模型，省去多平台注册的麻烦。

AI, Mobile

AI LLM Apple iPhone on-device MoE edge-ai

本文由作者按照 CC BY 4.0 进行授权