复制 3 层 Transformer,推理能力从 0.22 飙到 0.76:不训练、不改权重
昨天 HN 上一个 240+ 赞的帖子让我眼前一亮:有人在 Qwen2.5-32B 和 Devstral-24B 上复制了特定的 3 层 Transformer,不训练、不改权重,逻辑推演(BBH)成绩直接从 0.22 跳到 0.76。
两张 AMD 消费级显卡,一个晚上搞定。
什么是 Layer Duplication?
这个方法基于 David Ng 的 RYS(Repeat Your Strengths)方法。核心思路非常直觉:
Transformer 在训练过程中会自组织出功能电路(functional circuits)——连续的几层组成一个完整的认知处理单元。单独复制一层几乎没效果,但复制对的 3-4 层,等于让模型的推理管道多跑一遍。
具体操作就是在 forward pass 中,把 hidden states 路由到同一组层两次。权重不变,结构不变,只是让信号在关键电路里多走一圈。
实际效果:有涨有跌
作者在 H200 上跑了完整的 lm_eval 评测,Devstral-24B 复制 12-14 层的结果:
| 指标 | Base | +3 层 | 变化 |
|---|---|---|---|
| 因果推理 (BBH) | 0.578 | 0.636 | +5.9% |
| GSM8K 数学 (strict) | 0.841 | 0.870 | +3.0% |
| 指令跟随 (IFEval strict) | 0.623 | 0.577 | -4.6% |
| 代码生成 (MBPP) | 0.700 | 0.670 | -3.0% |
自定义 probe 测试上更夸张:推理综合从 76.5% 到 94.1%,提升 23%。
代价很明显:模型”想得更深”了,但”听话程度”下降了。 指令跟随和代码生成都有回退。这不是免费的午餐,是一种能力的重新分配。
为什么这件事值得关注
1. 零成本的推理增强
不需要 RLHF,不需要 SFT,不需要任何训练。这意味着:
- 在推理时动态调整模型能力成为可能
- 小团队和个人开发者也能”调优”开源模型
- 推理成本只增加了几层的计算量,远低于重新训练
2. Transformer 内部结构比我们想象的更有规律
这个发现暗示 Transformer 的层不是同质的——它们在训练中自发形成了功能分区。找到这些”电路”,就能有针对性地增强特定能力。这为理解大模型内部机制打开了一扇窗。
3. 实用性存疑,但研究价值巨大
老实说,指令跟随下降 4.6% 在生产环境中是个大问题。你不会希望一个”更聪明但不听指挥”的 Agent 跑在线上。但作为研究方向,这比”堆更多数据+更多算力”要优雅得多。
冷静看待
几个需要注意的点:
- 自定义 probe 的 0.22→0.76 数据和 lm_eval 标准评测的数据差距很大,前者可能存在 benchmark 选择偏差
- 不同模型的最佳复制层位置不同,需要逐个搜索
- 这个方法对已经很强的推理模型(如 o1/o3 级别)是否有效,还没有验证
但这不妨碍它是一个漂亮的发现。用最少的资源,揭示了 Transformer 的一个有趣特性。
如果你对不同模型的推理能力差异感兴趣,想亲自对比 Claude、GPT、Gemini 在逻辑推理任务上的表现,推荐试试 OfoxAI(ofox.ai)— 一个账号搞定主流模型,省去多平台切换的麻烦。