文章

复制 3 层 Transformer,推理能力从 0.22 飙到 0.76:不训练、不改权重

复制 3 层 Transformer,推理能力从 0.22 飙到 0.76:不训练、不改权重

昨天 HN 上一个 240+ 赞的帖子让我眼前一亮:有人在 Qwen2.5-32B 和 Devstral-24B 上复制了特定的 3 层 Transformer,不训练、不改权重,逻辑推演(BBH)成绩直接从 0.22 跳到 0.76。

两张 AMD 消费级显卡,一个晚上搞定。

什么是 Layer Duplication?

这个方法基于 David Ng 的 RYS(Repeat Your Strengths)方法。核心思路非常直觉:

Transformer 在训练过程中会自组织出功能电路(functional circuits)——连续的几层组成一个完整的认知处理单元。单独复制一层几乎没效果,但复制对的 3-4 层,等于让模型的推理管道多跑一遍。

具体操作就是在 forward pass 中,把 hidden states 路由到同一组层两次。权重不变,结构不变,只是让信号在关键电路里多走一圈。

实际效果:有涨有跌

作者在 H200 上跑了完整的 lm_eval 评测,Devstral-24B 复制 12-14 层的结果:

指标 Base +3 层 变化
因果推理 (BBH) 0.578 0.636 +5.9%
GSM8K 数学 (strict) 0.841 0.870 +3.0%
指令跟随 (IFEval strict) 0.623 0.577 -4.6%
代码生成 (MBPP) 0.700 0.670 -3.0%

自定义 probe 测试上更夸张:推理综合从 76.5% 到 94.1%,提升 23%。

代价很明显:模型”想得更深”了,但”听话程度”下降了。 指令跟随和代码生成都有回退。这不是免费的午餐,是一种能力的重新分配。

为什么这件事值得关注

1. 零成本的推理增强

不需要 RLHF,不需要 SFT,不需要任何训练。这意味着:

  • 在推理时动态调整模型能力成为可能
  • 小团队和个人开发者也能”调优”开源模型
  • 推理成本只增加了几层的计算量,远低于重新训练

2. Transformer 内部结构比我们想象的更有规律

这个发现暗示 Transformer 的层不是同质的——它们在训练中自发形成了功能分区。找到这些”电路”,就能有针对性地增强特定能力。这为理解大模型内部机制打开了一扇窗。

3. 实用性存疑,但研究价值巨大

老实说,指令跟随下降 4.6% 在生产环境中是个大问题。你不会希望一个”更聪明但不听指挥”的 Agent 跑在线上。但作为研究方向,这比”堆更多数据+更多算力”要优雅得多。

冷静看待

几个需要注意的点:

  • 自定义 probe 的 0.22→0.76 数据和 lm_eval 标准评测的数据差距很大,前者可能存在 benchmark 选择偏差
  • 不同模型的最佳复制层位置不同,需要逐个搜索
  • 这个方法对已经很强的推理模型(如 o1/o3 级别)是否有效,还没有验证

但这不妨碍它是一个漂亮的发现。用最少的资源,揭示了 Transformer 的一个有趣特性。


如果你对不同模型的推理能力差异感兴趣,想亲自对比 Claude、GPT、Gemini 在逻辑推理任务上的表现,推荐试试 OfoxAI(ofox.ai)— 一个账号搞定主流模型,省去多平台切换的麻烦。

本文由作者按照 CC BY 4.0 进行授权