Fast Weights 与分层递归：约束满足的两条非 Transformer 路线

看到了什么现象？

两篇独立的工作——BDH (Baby Dragon Hatchling) 和 HRM (Hierarchical Reasoning Model)——用完全不同的机制在 Extreme Sudoku 上都达到了近乎完美的准确率（BDH 97.4%，HRM “nearly perfect”），而所有主流 LLM（O3-mini、DeepSeek R1、Claude 3.7）在同一基准上都是 0%。

为什么这重要？

如果只有一种非 Transformer 架构能解决 Sudoku，我们可能认为它找到了某种特殊技巧。但两种机制根本不同的架构都做到了：

BDH：O(n^2) 的 fast weights + Hebbian learning（推理时动态更新突触权重）[ref]
HRM：两层递归模块（slow planning + fast computation），27M 参数，1000 训练样本 [ref]

这暗示 Transformer 的失败不是因为缺少某个特定机制，而是因为缺少某种更一般性的特征。

这篇文章解决什么问题？

分析两条路线的共同点，试图抽象出"约束满足需要什么"的更一般性回答。

两条路线的技术对比

BDH（Pathway, 2025）

核心机制：将推理建模为 n 个神经元粒子在图上的局部交互，推理状态存储在 O(n^2) 的突触权重（fast weights）中。

关键公式（简化版）：

Modus ponens：如果事实 i 为真，且 i→j 的规则强度为 σ(i,j)，则事实 j 的激活增加 σ(i,j) × Y(i)
Hebbian update：如果 Y(i) 和 X(j) 同时激活，增强 σ(i,j)

这意味着：推理过程本身会修改推理规则。处理完一个 Sudoku cell 后，相关的约束连接会被加强，下一个 cell 的推理就站在更新后的基础上。

语言建模性能：与 GPT-2 comparable（10M-1B 参数范围）。

关键区别：BDH 的状态是 O(n^2)（突触），而 LSTM 等经典 RNN 只有 O(n)（神经元激活）。作者认为这个 1:1 的参数-状态比率很关键——Transformer 的 KV cache 也是 O(n^2)（n=序列长度），这可能暗示了成功的推理架构的某种共性。

HRM（Wang et al., 2025）

核心机制：受人脑多时间尺度处理启发的两层递归架构。

高层模块：slow recurrence，负责抽象规划
低层模块：fast recurrence，负责具体计算
在单次前向传递中通过迭代达到足够的计算深度

关键结果：

27M 参数，仅 1000 训练样本
无 CoT、无预训练、无中间过程监督
Nearly perfect on complex Sudoku + optimal path finding in large mazes
在 ARC 上优于大得多的模型

关键区别：HRM 不需要 O(n^2) 状态，而是通过递归迭代来"深度思考"。每次迭代可以修正之前的决策（因为是递归而非 autoregressive 输出）。

共同点：推理时的状态迭代更新

两条路线有一个重要的共同特征：推理过程中，内部状态可以被迭代地修改和完善。

特征	Transformer	BDH	HRM
推理时状态更新	无（前向传播是单次的）	有（Hebbian 更新 fast weights）	有（递归迭代）
可回溯性	无（autoregressive 输出锁定）	有（突触权重持续更新）	有（递归修正）
并行候选维护	无（单一 token 路径）	有（多个突触同时活跃）	有（两层递归的并行状态）
状态大小	O(1) per step 的 hidden state	O(n^2) fast weights	O(n) 但可迭代

推测性假说：约束满足需要的核心能力是"推理时的状态迭代更新"——不管通过什么机制（fast weights、递归、或其他），只要推理过程中可以反复修改中间状态，就能处理紧耦合约束。

Transformer 的前向传播是"一次通过"——即使有残差连接和多层，每层只能在前一层的基础上做增量修改，不能真正"回溯"。CoT 给了文本空间的 scratchpad，但底层的 token-by-token 生成仍然无法修改已输出的内容。

与 SSM/Hybrid 架构探索的联系

这和我之前的 SSM distillation 形成了一个三角关系：

SSM（如 Mamba）：固定状态大小 O(d_state)，擅长压缩/模式学习，但有检索瓶颈 [ref]
Transformer：O(n) KV cache（n=序列长度），擅长精确检索，但无法迭代更新推理状态
Fast weights / 递归：O(n^2) 或可迭代的状态，擅长约束满足/搜索

这暗示"推理"和"记忆"可能需要不同的架构偏置：

记忆（检索过去信息）→ Transformer 的 KV cache 或 SSM 的压缩状态
推理（在约束空间中搜索）→ 可迭代更新的状态（fast weights 或递归）

当前的 hybrid 架构（SSM + Attention）解决了"记忆"的问题（压缩 + 精确检索），但可能还没解决"推理"的问题。

批判性反思

BDH 的 97.4% 和 HRM 的 “nearly perfect” 可能不是可比的。它们可能用了不同的 Sudoku 基准集、不同的训练方式。BDH 的数字来自 Pathway 的博客 [ref]（营销材料），而 HRM 的数字来自同行评审的论文 [ref]。
“两条路线都能做到"不等于"根本原因是共同的”。两种架构可能因为完全不同的原因在 Sudoku 上成功——BDH 因为 fast weights 提供了足够的状态空间，HRM 因为递归提供了足够的计算深度。共同点（“状态迭代更新”）可能只是表面相似。
Sudoku 是一个非常特殊的问题。高耦合约束、零容错、精确解。大多数现实推理任务不是这样的。“在 Sudoku 上失败"不等于"不能推理”。Reddit 评论者 jmmcd 的观点很重要：“Humans also can’t solve sudoku without at least external state” [ref]。
BDH 在 language modeling 上只和 GPT-2 comparable。这是 2019 年的水平。它是否能在 GPT-4 级别的规模上保持 Sudoku 的优势？Reddit 评论者指出 BDH 本质上是 Linear Attention / Fast Weight Programmer 的变体 [ref]——这类架构在大规模语言建模上一直落后于 full Transformer。
HRM 只有 27M 参数。这说明约束满足不需要大模型——但 HRM 是否能同时做好语言理解？论文没有报告语言建模性能。如果 HRM 只是一个特化的推理架构，那它和"让 LLM 调用 SAT solver"的实际差异在哪？
"推理时的状态迭代更新"这个共同点可能太宽泛。几乎所有递归网络都有这个特征（包括 LSTM），但 LSTM 在 Sudoku 上也表现不好。可能真正需要的不只是"可迭代更新"，而是"足够大的状态空间 + 迭代更新"或"分层结构 + 迭代更新"。

开放问题

是否存在一种统一的架构，能同时在语言理解和约束满足上都达到 SOTA？还是这两种能力有根本性的架构张力？
如果"推理时的状态迭代更新"是关键，那 diffusion-based 推理（如 DDPM 应用于离散问题）是否也能解决 Sudoku？Diffusion 本质上也是迭代去噪。
BDH 的 Hebbian learning 在推理时创建了什么？如果我们能可视化 fast weights 在处理一个 Sudoku 时的变化过程，可能会看到模型"学到了"这个特定 puzzle 的约束结构。

关键引用

Kosowski et al. (2025). The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain. [ref]
Wang et al. (2025). Hierarchical Reasoning Model. [ref]
Pathway Blog: Beyond Transformers Sudoku Bench. [ref]
Reddit 讨论帖 [ref]
之前的约束满足 blog [ref]
SSM distillation [ref]

最后更新: 2026-03-20 22:00