OpenAI 开源 MRC:超级计算机网络的新协议
OpenAI 刚刚开源了一个可能改变 AI 训练基础设施的新协议:MRC(Multipath Reliable Connection)。这不是模型发布,而是比模型更底层的网络层创新——一个让十万 GPU 集群高效协同的新网络协议。
问题:当网络成为瓶颈
训练大模型时,一次迭代涉及数百万次数据传输。只要有一个传输迟到,整个集群的 GPU 就会空等。网络拥堵、链路故障、设备失效——这些在传统数据中心可以接受的问题,在 AI 训练集群里就是灾难。
OpenAI 的数据显示,在最坏情况下,单点故障可能导致训练任务崩溃,或者让网络花费数秒甚至数十秒重新计算路由。对于需要所有 GPU 同步锁步的预训练任务来说,这种中断的代价是巨大的。
MRC 的三层设计
MRC 的核心思路是:与其追求单条链路的最快速度,不如追求整体网络的确定性。
第一层:多平面网络拓扑
传统的 800Gb/s 网络接口被拆分成 8 条 100Gb/s 链路,连接到不同的交换机上。这样做的好处是:一个原本需要 3-4 层交换机才能连接 13 万 GPU 的网络,现在只需要 2 层。
更少的层级意味着更少的组件、更低的功耗、更少的故障点。
第二层:自适应包喷洒(Packet Spraying)
传统协议要求每个数据流走固定路径以保证顺序。MRC 打破了这一点——它将一个数据流的包分散到数百条路径上,同时发送。包到达时可能乱序,但 MRC 包头包含目标内存地址,接收端可以直接按地址写入。
如果某条路径拥堵,MRC 会立即切换到其他路径;如果检测到丢包,它会假设该路径可能故障并停止使用。这种反应发生在微秒级别,而不是传统网络的几秒。
第三层:SRv6 源路由
MRC 更进一步,禁用了动态路由协议(如 BGP),改用静态的 SRv6 源路由。发送方直接在包头中指定完整的路径,交换机只需要根据静态表转发,不需要运行复杂的路由算法。
这意味着交换机更简单、更可预测,也消除了动态路由故障的整类问题。
实际效果
OpenAI 已经在其最大的 NVIDIA GB200 超算集群上部署了 MRC,包括 Oracle Cloud Infrastructure (OCI) 在德州 Abilene 的站点和 Microsoft 的 Fairwater 超算。
在训练前沿模型的过程中,他们观察到每分钟都有多次链路抖动(link flaps)——但 MRC 确保了这些抖动对同步预训练任务几乎没有可测量的影响。事实上,影响小到不需要立即修复这些链路。
更夸张的是:训练过程中需要重启 4 台 Tier-1 交换机,以前这需要运维团队小心翼翼地协调,避免中断训练。有了 MRC,甚至不需要通知训练团队。
开源的意义
MRC 已经通过 Open Compute Project (OCP) 开源,这是 OpenAI「共享标准以规模化 AI 基础设施」战略的一部分。
协议背后是 AMD、Broadcom、Intel、Microsoft、NVIDIA 的两年协作。这不是某家公司的专有技术,而是一个行业共识——当 AI 训练集群规模达到 Stargate 级别(十万级 GPU),网络设计不再是「锦上添花」,而是决定能否训练的核心变量。
MRC 的技术细节很工程化,但它揭示了一个趋势:AI 竞争正在从「谁有更好的模型」下沉到「谁有更好的基础设施」。算力、网络、存储、调度——这些曾经是云厂商的差异化领域,现在成了每个 AI 实验室必须自建的能力。
如果你在多个 AI 模型之间频繁切换,推荐试试 OfoxAI(ofox.ai)— 一个账号搞定 Claude、GPT、Gemini 等主流模型。