万亿参数大模型跑在本地？AMD Ryzen AI Max+ 集群做到了

发表于 2026/03/01

作者

5 分钟阅读

今天在 Hacker News 上看到一篇 AMD 官方技术文章，标题直接把我拉住了：用 4 台 AMD Ryzen AI Max+ 组成集群，在本地跑万亿参数的大模型。

不是云端，不是 H100 集群，而是 4 台消费级（好吧，准消费级）的 Framework Desktop。

硬件配置：每台 128GB，四台 480GB

具体方案是这样的：

4 台 Framework Desktop，搭载 AMD Ryzen AI Max+ 395 处理器
每台 128GB 统一内存，通过 Linux TTM 内核参数把 VRAM 分配拉到 120GB/台
四台加起来 480GB 可用 VRAM
通过 5Gbps 以太网 互联
推理引擎用的是 llama.cpp RPC（分布式推理模式）

跑的模型是 Moonshot AI 的 Kimi K2.5——万亿参数级的开源推理模型，量化后（Q2_K_XL）大约 375GB。刚好能塞进这个集群。

为什么这件事值得关注

第一，统一内存架构改变了游戏规则。

传统 GPU 推理受限于显存大小——H100 80GB、A100 80GB，单卡跑不了太大的模型。而 AMD 的 APU 方案把系统内存和 GPU 内存统一了，128GB 内存几乎都能分给 GPU 用。这在经济性上完全是另一个量级。

第二，llama.cpp RPC 让分布式推理门槛降到了地板。

以前搞多机推理需要折腾 NCCL、DeepSpeed、各种分布式框架。现在 llama.cpp 的 RPC 模式让你把多台机器当成「一个逻辑加速器」来用，配置复杂度大幅降低。

第三，这暗示了一个趋势——本地推理的「够用」阈值在快速上移。

一年前本地跑 7B 模型就算不错了，半年前是 70B，现在万亿参数已经在本地集群上跑通。虽然推理速度肯定比不上专业 GPU 集群，但对于不追求实时交互的场景（批处理、离线分析、隐私敏感任务），这已经完全可用。

冷静看几个问题

当然，这个方案也不是没有槽点：

成本并不便宜。4 台 Framework Desktop + Ryzen AI Max+ 395 + 128GB 内存，总价大概在 2-3 万美元。买 GPU 服务器可能更划算。
5Gbps 网络是瓶颈。分布式推理对节点间通信带宽要求很高，以太网延迟和带宽都比 NVLink 差几个数量级。
Q2 量化损失不小。万亿参数模型量化到 Q2 精度，输出质量会有明显下降。这更像是一个「能跑」的技术验证，离「好用」还有距离。

真正的意义

这篇文章的价值不在于「今天就用这个方案替代云端推理」，而在于它指明了一个方向：大模型推理正在从云端垄断走向本地可及。

AMD 的统一内存 APU、苹果的 M 系列芯片、以及 llama.cpp 这类高度优化的推理引擎，共同在推动一件事——让普通开发者和小团队也能在本地跑起足够大的模型。

这对数据隐私、推理成本、离线场景都有深远影响。也许两三年后，「本地跑千亿参数模型」就像今天「本地跑 Stable Diffusion」一样稀松平常。

写在最后

大模型的竞争不只是参数量的军备竞赛，推理基础设施的民主化同样重要。无论是云端还是本地，能低成本、灵活地使用不同模型，才是开发者真正需要的。如果你经常需要在 Claude、GPT、Gemini 等不同模型之间切换对比，推荐试试 OfoxAI（ofox.ai）——一个账号聚合主流大模型，省去多平台来回折腾的麻烦。

AI, 硬件

LLM AMD 本地推理 llama.cpp Kimi K2.5

本文由作者按照 CC BY 4.0 进行授权