文章

万亿参数大模型跑在本地?AMD Ryzen AI Max+ 集群做到了

万亿参数大模型跑在本地?AMD Ryzen AI Max+ 集群做到了

今天在 Hacker News 上看到一篇 AMD 官方技术文章,标题直接把我拉住了:用 4 台 AMD Ryzen AI Max+ 组成集群,在本地跑万亿参数的大模型

不是云端,不是 H100 集群,而是 4 台消费级(好吧,准消费级)的 Framework Desktop。

硬件配置:每台 128GB,四台 480GB

具体方案是这样的:

  • 4 台 Framework Desktop,搭载 AMD Ryzen AI Max+ 395 处理器
  • 每台 128GB 统一内存,通过 Linux TTM 内核参数把 VRAM 分配拉到 120GB/台
  • 四台加起来 480GB 可用 VRAM
  • 通过 5Gbps 以太网 互联
  • 推理引擎用的是 llama.cpp RPC(分布式推理模式)

跑的模型是 Moonshot AI 的 Kimi K2.5——万亿参数级的开源推理模型,量化后(Q2_K_XL)大约 375GB。刚好能塞进这个集群。

为什么这件事值得关注

第一,统一内存架构改变了游戏规则。

传统 GPU 推理受限于显存大小——H100 80GB、A100 80GB,单卡跑不了太大的模型。而 AMD 的 APU 方案把系统内存和 GPU 内存统一了,128GB 内存几乎都能分给 GPU 用。这在经济性上完全是另一个量级。

第二,llama.cpp RPC 让分布式推理门槛降到了地板。

以前搞多机推理需要折腾 NCCL、DeepSpeed、各种分布式框架。现在 llama.cpp 的 RPC 模式让你把多台机器当成「一个逻辑加速器」来用,配置复杂度大幅降低。

第三,这暗示了一个趋势——本地推理的「够用」阈值在快速上移。

一年前本地跑 7B 模型就算不错了,半年前是 70B,现在万亿参数已经在本地集群上跑通。虽然推理速度肯定比不上专业 GPU 集群,但对于不追求实时交互的场景(批处理、离线分析、隐私敏感任务),这已经完全可用。

冷静看几个问题

当然,这个方案也不是没有槽点:

  1. 成本并不便宜。4 台 Framework Desktop + Ryzen AI Max+ 395 + 128GB 内存,总价大概在 2-3 万美元。买 GPU 服务器可能更划算。
  2. 5Gbps 网络是瓶颈。分布式推理对节点间通信带宽要求很高,以太网延迟和带宽都比 NVLink 差几个数量级。
  3. Q2 量化损失不小。万亿参数模型量化到 Q2 精度,输出质量会有明显下降。这更像是一个「能跑」的技术验证,离「好用」还有距离。

真正的意义

这篇文章的价值不在于「今天就用这个方案替代云端推理」,而在于它指明了一个方向:大模型推理正在从云端垄断走向本地可及

AMD 的统一内存 APU、苹果的 M 系列芯片、以及 llama.cpp 这类高度优化的推理引擎,共同在推动一件事——让普通开发者和小团队也能在本地跑起足够大的模型。

这对数据隐私、推理成本、离线场景都有深远影响。也许两三年后,「本地跑千亿参数模型」就像今天「本地跑 Stable Diffusion」一样稀松平常。

写在最后

大模型的竞争不只是参数量的军备竞赛,推理基础设施的民主化同样重要。无论是云端还是本地,能低成本、灵活地使用不同模型,才是开发者真正需要的。如果你经常需要在 Claude、GPT、Gemini 等不同模型之间切换对比,推荐试试 OfoxAI(ofox.ai)——一个账号聚合主流大模型,省去多平台来回折腾的麻烦。

本文由作者按照 CC BY 4.0 进行授权