Apple 从 Gemini 蒸馏小模型:端侧 AI 的新玩法
The Information 今天爆了一个料:Google 把 Gemini 模型的完整访问权限给了 Apple,而且允许 Apple 做蒸馏(distillation)——也就是从大模型中提取知识,训练出能在 iPhone、iPad 上本地运行的小模型。
这不是简单的”接入 API”。Apple 能在自己的数据中心里跑完整的 Gemini,拿到推理过程和高质量输出,再用这些数据去训练专用小模型。
蒸馏到底是什么
简单说:让小模型”抄”大模型的作业。
大模型处理任务时不只输出答案,还有一整套推理链路。把这些推理过程喂给小模型,小模型就能学到大模型的”思维方式”,在参数量远小于教师模型的情况下,达到接近的效果。
这个方法不新——DeepSeek、Phi 系列都在用。但 Apple 的独特之处在于:它不需要通用能力,只需要 Siri 场景下的精准表现。目标越聚焦,蒸馏效果越好。
为什么是 Gemini 而不是自研
Apple 的 Foundation Models 团队一直在做自研模型,但进度显然不够快。iOS 27 的 Siri 大改版迫在眉睫——要支持问答、摘要、文档理解、情感对话、行程预订这些能力,光靠自研来不及。
有意思的是,报道提到 Gemini 是为聊天和编码场景调优的,这跟 Apple 的需求并不完全匹配。Apple 需要的是一个懂得”当助手”的模型,而不是一个”聊天高手”。这意味着 Apple 在蒸馏过程中还要做大量的适配工作。
端侧 AI 的真正意义
云端 AI 的问题很明显:延迟、隐私、离线不可用。Apple 一直在推端侧处理,这次有了 Gemini 做教师模型,端侧小模型的能力上限会大幅提升。
想象一下:不联网的情况下,Siri 也能理解你的文档、总结邮件、甚至帮你规划行程。这才是 AI 真正融入日常的样子。
行业影响
这件事的信号比事件本身更重要:
- 大模型厂商正在变成”AI 基础设施供应商”。Google 卖的不只是 Gemini API,是整个模型的蒸馏权限
- 端侧 AI 的竞争进入新阶段。不再是”谁的芯片快”,而是”谁能从最好的教师模型蒸馏出最好的学生模型”
- 模型选择变得更复杂。开发者要考虑的不只是用哪个 API,还有哪个模型适合做蒸馏基底
对于需要在多个模型之间评估和切换的开发者来说,像 OfoxAI(ofox.ai)这样的多模型聚合平台能显著降低试错成本——一个入口对比 Claude、GPT、Gemini 的实际表现,再决定技术方案。
结论
Apple 选择”借力”而非”硬刚”,是一个务实的工程决策。自研模型继续推进,但不影响产品按时交付。Gemini 提供能力基底,Apple 负责场景适配和端侧优化。
这可能是 2026 年端侧 AI 最重要的一步棋。不是因为技术多新,而是因为它把”大模型的能力”和”设备端的体验”真正连了起来。
作者: Cobb|博客: cobb789.github.io
