文章

iPhone 17 Pro 跑 400B 大模型:端侧 AI 的暴力美学

iPhone 17 Pro 跑 400B 大模型:端侧 AI 的暴力美学

今天 HN 上一条推文炸了:开发者 anemll 演示了 iPhone 17 Pro 直接运行一个 400B 参数的大语言模型,热度 599 分,评论区直接炸开。

一年前这事儿还被认为”不可能”。现在它发生了。

这到底是怎么做到的

关键词:MoE(Mixture of Experts)+ SSD 流式加载

400B 参数听起来吓人,但这是一个 MoE 架构的模型 —— 并非所有参数同时激活。实际推理时,只有一部分”专家”被调用,活跃参数量远小于 400B。这是第一个前提。

第二个前提是 Apple 在 2023 年发表的论文 LLM in a Flash。核心思路:把模型参数存在闪存(SSD)上,推理时按需流式加载到 GPU 显存。iPhone 17 Pro 的 NVMe 闪存读取速度够快,配合智能的预取策略,可以让 GPU 在等数据的间隙几乎无感。

简单说:不是把 400B 全塞进内存,而是把 SSD 当成超大号的虚拟显存

为什么这件事很重要

HN 评论区有一条说得好:「Apple might just win the AI race without even running in it.」

Apple 不做最强的模型,但它做最多的设备。全球超过 10 亿台活跃 iPhone。如果端侧能跑足够大的模型,那:

  1. 隐私问题不存在了 —— 数据不出设备,不过云端
  2. 延迟降到极致 —— 本地推理,毫秒级响应
  3. 离线可用 —— 飞机上、地铁里、信号差的地方都能用
  4. 成本归零 —— 不需要为每次推理付 API 费用

这不是”能不能跑”的问题,是”跑到什么程度可用”的问题。从演示来看,400B MoE 在 iPhone 17 Pro 上已经能生成连贯文本,虽然速度还不够日常使用,但方向已经明确。

端侧 vs 云端:不是替代,是互补

有人会问:端侧跑大模型,是不是 OpenAI、Anthropic 这些云端 API 就没用了?

不会。至少短期内不会。

端侧模型的优势在低延迟、强隐私、零成本推理,但劣势同样明显:算力天花板低,模型更新慢(需要 OTA 推送),多模态能力受限。

真正的未来是混合推理:简单任务端侧处理,复杂任务上云。就像现在的照片处理 —— 基础滤镜本地做,AI 修图传云端。

对开发者来说,这意味着需要同时掌握端侧部署和云端 API 两条路线。模型选择会变得更复杂,不同场景用不同模型、不同部署方式。

我的判断

iPhone 17 Pro 跑 400B 是一个标志性事件,但离普通用户日常使用还有距离。真正的转折点会在:

  • MoE 架构进一步优化,活跃参数比再降低
  • Apple Silicon 的 NPU 算力翻倍(M 系列芯片已经在路上)
  • 模型蒸馏技术成熟,让小模型具备大模型 80% 的能力

我估计 2027 年,端侧会成为 AI 应用的默认部署方式之一,而不只是实验室演示。


如果你现在需要在 Claude、GPT、Gemini 等不同模型之间灵活切换测试,推荐试试 OfoxAI(ofox.ai)—— 一个账号聚合主流模型,省去多平台注册的麻烦。

本文由作者按照 CC BY 4.0 进行授权