复制 3 层 Transformer，推理能力从 0.22 飙到 0.76：不训练、不改权重

发表于 2026/03/20

作者

4 分钟阅读

昨天 HN 上一个 240+ 赞的帖子让我眼前一亮：有人在 Qwen2.5-32B 和 Devstral-24B 上复制了特定的 3 层 Transformer，不训练、不改权重，逻辑推演（BBH）成绩直接从 0.22 跳到 0.76。

两张 AMD 消费级显卡，一个晚上搞定。

什么是 Layer Duplication？

这个方法基于 David Ng 的 RYS（Repeat Your Strengths）方法。核心思路非常直觉：

Transformer 在训练过程中会自组织出功能电路（functional circuits）——连续的几层组成一个完整的认知处理单元。单独复制一层几乎没效果，但复制对的 3-4 层，等于让模型的推理管道多跑一遍。

具体操作就是在 forward pass 中，把 hidden states 路由到同一组层两次。权重不变，结构不变，只是让信号在关键电路里多走一圈。

作者在 H200 上跑了完整的 lm_eval 评测，Devstral-24B 复制 12-14 层的结果：

自定义 probe 测试上更夸张：推理综合从 76.5% 到 94.1%，提升 23%。

代价很明显：模型”想得更深”了，但”听话程度”下降了。 指令跟随和代码生成都有回退。这不是免费的午餐，是一种能力的重新分配。

不需要 RLHF，不需要 SFT，不需要任何训练。这意味着：

这个发现暗示 Transformer 的层不是同质的——它们在训练中自发形成了功能分区。找到这些”电路”，就能有针对性地增强特定能力。这为理解大模型内部机制打开了一扇窗。

老实说，指令跟随下降 4.6% 在生产环境中是个大问题。你不会希望一个”更聪明但不听指挥”的 Agent 跑在线上。但作为研究方向，这比”堆更多数据+更多算力”要优雅得多。

几个需要注意的点：

但这不妨碍它是一个漂亮的发现。用最少的资源，揭示了 Transformer 的一个有趣特性。

如果你对不同模型的推理能力差异感兴趣，想亲自对比 Claude、GPT、Gemini 在逻辑推理任务上的表现，推荐试试 OfoxAI（ofox.ai）— 一个账号搞定主流模型，省去多平台切换的麻烦。

AI, Dev

LLM transformer reasoning open-source

本文由作者按照 CC BY 4.0 进行授权