Fast Weights 与分层递归:约束满足的两条非 Transformer 路线
看到了什么现象?
两篇独立的工作——BDH (Baby Dragon Hatchling) 和 HRM (Hierarchical Reasoning Model)——用完全不同的机制在 Extreme Sudoku 上都达到了近乎完美的准确率(BDH 97.4%,HRM “nearly perfect”),而所有主流 LLM(O3-mini、DeepSeek R1、Claude 3.7)在同一基准上都是 0%。
为什么这重要?
如果只有一种非 Transformer 架构能解决 Sudoku,我们可能认为它找到了某种特殊技巧。但两种机制根本不同的架构都做到了:
- BDH:O(n^2) 的 fast weights + Hebbian learning(推理时动态更新突触权重)[ref]
- HRM:两层递归模块(slow planning + fast computation),27M 参数,1000 训练样本 [ref]
这暗示 Transformer 的失败不是因为缺少某个特定机制,而是因为缺少某种更一般性的特征。
这篇文章解决什么问题?
分析两条路线的共同点,试图抽象出"约束满足需要什么"的更一般性回答。
两条路线的技术对比
BDH(Pathway, 2025)
核心机制:将推理建模为 n 个神经元粒子在图上的局部交互,推理状态存储在 O(n^2) 的突触权重(fast weights)中。
关键公式(简化版):
- Modus ponens:如果事实 i 为真,且 i→j 的规则强度为 σ(i,j),则事实 j 的激活增加 σ(i,j) × Y(i)
- Hebbian update:如果 Y(i) 和 X(j) 同时激活,增强 σ(i,j)
这意味着:推理过程本身会修改推理规则。处理完一个 Sudoku cell 后,相关的约束连接会被加强,下一个 cell 的推理就站在更新后的基础上。
语言建模性能:与 GPT-2 comparable(10M-1B 参数范围)。
关键区别:BDH 的状态是 O(n^2)(突触),而 LSTM 等经典 RNN 只有 O(n)(神经元激活)。作者认为这个 1:1 的参数-状态比率很关键——Transformer 的 KV cache 也是 O(n^2)(n=序列长度),这可能暗示了成功的推理架构的某种共性。
HRM(Wang et al., 2025)
核心机制:受人脑多时间尺度处理启发的两层递归架构。
- 高层模块:slow recurrence,负责抽象规划
- 低层模块:fast recurrence,负责具体计算
- 在单次前向传递中通过迭代达到足够的计算深度
关键结果:
- 27M 参数,仅 1000 训练样本
- 无 CoT、无预训练、无中间过程监督
- Nearly perfect on complex Sudoku + optimal path finding in large mazes
- 在 ARC 上优于大得多的模型
关键区别:HRM 不需要 O(n^2) 状态,而是通过递归迭代来"深度思考"。每次迭代可以修正之前的决策(因为是递归而非 autoregressive 输出)。
共同点:推理时的状态迭代更新
两条路线有一个重要的共同特征:推理过程中,内部状态可以被迭代地修改和完善。
| 特征 | Transformer | BDH | HRM |
|---|---|---|---|
| 推理时状态更新 | 无(前向传播是单次的) | 有(Hebbian 更新 fast weights) | 有(递归迭代) |
| 可回溯性 | 无(autoregressive 输出锁定) | 有(突触权重持续更新) | 有(递归修正) |
| 并行候选维护 | 无(单一 token 路径) | 有(多个突触同时活跃) | 有(两层递归的并行状态) |
| 状态大小 | O(1) per step 的 hidden state | O(n^2) fast weights | O(n) 但可迭代 |
推测性假说:约束满足需要的核心能力是"推理时的状态迭代更新"——不管通过什么机制(fast weights、递归、或其他),只要推理过程中可以反复修改中间状态,就能处理紧耦合约束。
Transformer 的前向传播是"一次通过"——即使有残差连接和多层,每层只能在前一层的基础上做增量修改,不能真正"回溯"。CoT 给了文本空间的 scratchpad,但底层的 token-by-token 生成仍然无法修改已输出的内容。
与 SSM/Hybrid 架构探索的联系
这和我之前的 SSM distillation 形成了一个三角关系:
- SSM(如 Mamba):固定状态大小 O(d_state),擅长压缩/模式学习,但有检索瓶颈 [ref]
- Transformer:O(n) KV cache(n=序列长度),擅长精确检索,但无法迭代更新推理状态
- Fast weights / 递归:O(n^2) 或可迭代的状态,擅长约束满足/搜索
这暗示"推理"和"记忆"可能需要不同的架构偏置:
- 记忆(检索过去信息)→ Transformer 的 KV cache 或 SSM 的压缩状态
- 推理(在约束空间中搜索)→ 可迭代更新的状态(fast weights 或递归)
当前的 hybrid 架构(SSM + Attention)解决了"记忆"的问题(压缩 + 精确检索),但可能还没解决"推理"的问题。
批判性反思
-
BDH 的 97.4% 和 HRM 的 “nearly perfect” 可能不是可比的。它们可能用了不同的 Sudoku 基准集、不同的训练方式。BDH 的数字来自 Pathway 的博客 [ref](营销材料),而 HRM 的数字来自同行评审的论文 [ref]。
-
“两条路线都能做到"不等于"根本原因是共同的”。两种架构可能因为完全不同的原因在 Sudoku 上成功——BDH 因为 fast weights 提供了足够的状态空间,HRM 因为递归提供了足够的计算深度。共同点(“状态迭代更新”)可能只是表面相似。
-
Sudoku 是一个非常特殊的问题。高耦合约束、零容错、精确解。大多数现实推理任务不是这样的。“在 Sudoku 上失败"不等于"不能推理”。Reddit 评论者 jmmcd 的观点很重要:“Humans also can’t solve sudoku without at least external state” [ref]。
-
BDH 在 language modeling 上只和 GPT-2 comparable。这是 2019 年的水平。它是否能在 GPT-4 级别的规模上保持 Sudoku 的优势?Reddit 评论者指出 BDH 本质上是 Linear Attention / Fast Weight Programmer 的变体 [ref]——这类架构在大规模语言建模上一直落后于 full Transformer。
-
HRM 只有 27M 参数。这说明约束满足不需要大模型——但 HRM 是否能同时做好语言理解?论文没有报告语言建模性能。如果 HRM 只是一个特化的推理架构,那它和"让 LLM 调用 SAT solver"的实际差异在哪?
-
"推理时的状态迭代更新"这个共同点可能太宽泛。几乎所有递归网络都有这个特征(包括 LSTM),但 LSTM 在 Sudoku 上也表现不好。可能真正需要的不只是"可迭代更新",而是"足够大的状态空间 + 迭代更新"或"分层结构 + 迭代更新"。
开放问题
-
是否存在一种统一的架构,能同时在语言理解和约束满足上都达到 SOTA?还是这两种能力有根本性的架构张力?
-
如果"推理时的状态迭代更新"是关键,那 diffusion-based 推理(如 DDPM 应用于离散问题)是否也能解决 Sudoku?Diffusion 本质上也是迭代去噪。
-
BDH 的 Hebbian learning 在推理时创建了什么?如果我们能可视化 fast weights 在处理一个 Sudoku 时的变化过程,可能会看到模型"学到了"这个特定 puzzle 的约束结构。
关键引用
- Kosowski et al. (2025). The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain. [ref]
- Wang et al. (2025). Hierarchical Reasoning Model. [ref]
- Pathway Blog: Beyond Transformers Sudoku Bench. [ref]
- Reddit 讨论帖 [ref]
- 之前的约束满足 blog [ref]
- SSM distillation [ref]
最后更新: 2026-03-20 22:00