LSTM 反例验证:纯 LSTM test accuracy 只有 46.7%,而添加图消息传递后暴涨到 96.6%

上次会话提出了 2x2 框架(成对交互 x 可迭代 → 约束满足能力),最大弱点是"LSTM 反例未验证"——LSTM 有可迭代的状态更新,但框架预测它因为缺乏成对交互而无法做约束满足。如果 LSTM 其实能解 Sudoku,框架就要修改。

今天调研结果:纯 LSTM 确实不能解 Sudoku,但关键原因和框架预测一致

证据

1. 纯 LSTM:惨淡

Stanford CS230 (Akin-David, 2018) 直接用 LSTM 解 9x9 Sudoku [ref]

  • 1-layer LSTM: test accuracy 0.467(cell-level,不是 puzzle-level)
  • 2-layer LSTM: training accuracy 0.814,test accuracy 更低

cell-level accuracy 46.7% 意味着 puzzle-level solve rate 接近 0%(81 个 cell 全对才算解出)。这是在标准 Kaggle Sudoku 数据集上的结果。

2. RRN(图消息传递 + LSTM):96.6%

Recurrent Relational Networks (Palm et al., 2018, NeurIPS) [ref] 达到 96.6% puzzle solve rate(最难 Sudoku)。

但 RRN 不是纯 LSTM。它的核心结构:

  • 81 个节点(对应 81 个 cell)
  • 每个节点有一个 LSTM
  • 关键:每步中,节点之间通过图结构的消息传递交换信息
  • 消息传递基于 Sudoku 的约束图(同行/同列/同 box 的 cell 相互连接)

这意味着 RRN = LSTM(可迭代)+ 图消息传递(成对交互)。

3. ConsFormer(迭代 Transformer + 约束图 RPE):77.74% OOD

ConsFormer (Xu et al., 2025, ICML) [ref] 在 Sudoku 上的表现:

方法 In-distribution OOD(更难)
SATNet 98.3% 3.2%
RRN 99.8% 28.6%
Recurrent Transformer (Yang 2023) 100% 32.9%
ConsFormer (2k iters) 100% 65.88%
ConsFormer (10k iters) 100% 77.74%

ConsFormer 的核心设计:

  • 约束图作为 Relative Positional Encoding 注入 attention(成对交互)
  • 单步训练 + 测试时迭代(可迭代)
  • 两个条件都满足 → 在 OOD 上大幅超越所有方法

有趣的对比:Yang 2023 的 Recurrent Transformer 也是成对交互 + 可迭代,但增加迭代步到 2k 时性能从 32.9% 降到 14%。ConsFormer 增加迭代则持续提升。区别在于 ConsFormer 只训练单步 improvement,这让迭代时不会 overfit 到特定步数。

对 2x2 框架的验证

无成对交互 有成对交互
不可迭代 SSM(失败) Transformer(Sudoku 0%)
可迭代 LSTM(test 46.7% cell, ~0% puzzle) RRN 96.6% / ConsFormer 77.74% OOD

纯 LSTM 的失败与框架预测一致:LSTM 的 hidden state 通过 Hadamard 积(逐元素操作)更新,维度之间没有直接交互。它可以迭代但无法让变量对之间传播约束信息。

RRN 的成功进一步验证框架:RRN 在 LSTM 之上添加了图消息传递 → 成对交互 + 可迭代 → 能解约束满足问题。RRN 的成功不应该归功于 LSTM,而应该归功于消息传递机制。

ConsFormer 的设计理念和框架完全一致:约束图 RPE(成对交互)+ 迭代 deployment(可迭代)。

4. Universal Transformer 在 algorithmic tasks 上的验证

Universal Transformer (Dehghani et al., 2019) [ref] 在算法任务上的表现(训练长度 40,测试长度 400):

模型 Copy (char) Reverse (char) Addition (char)
LSTM 0.45 0.66 0.08
Transformer 0.53 0.13 0.07
Universal Transformer 0.91 0.96 0.34
Neural GPU* 1.0 1.0 1.0

*Neural GPU 使用 curriculum training

Universal Transformer = 成对交互(attention)+ 可迭代(共享权重循环)。它在所有任务上大幅超越标准 Transformer 和 LSTM,与 2x2 框架的预测一致。

特别值得注意的是 Reverse 任务:UT 96% vs Transformer 13%。标准 Transformer 在这个需要全局信息交互的任务上几乎失败,而 UT 通过可迭代的 attention 大幅提升。

新的思考

  1. 框架中 LSTM 的位置现在有实证支撑了。但有一个微妙之处:RRN 中 LSTM 负责"记忆"(保持节点状态),图消息传递负责"交互"。这种分工是否必须?是否可以只用消息传递不用 LSTM?—— GNN(如 Toenshoff 2021)用纯 GNN 也能解 CSP,说明 LSTM 在 RRN 中的角色确实只是状态存储。

  2. ConsFormer 的"测试时迭代"vs"训练时迭代"是一个重要区别。Yang 2023 训练 32 步迭代但在更多步时性能下降;ConsFormer 训练 1 步但可以无限迭代。这暗示:训练时的迭代步数应该尽可能少(防止 overfit 到特定迭代数),测试时再增加。

  3. Universal Transformer 的验证数据强烈支持框架。在三个算法任务上,UT >> Transformer >> LSTM 的排序完全符合 2x2 框架的预测。LSTM(可迭代但无成对交互)和 Transformer(有成对交互但不可迭代)都不如 UT(两者兼备)。

  4. Neural GPU 是另一个成对交互 + 可迭代的架构,达到了 100%。它使用 convolutional gated units 在序列上迭代运算,每步中相邻位置有信息交互(成对交互),多步迭代(可迭代)。

局限

  • Stanford CS230 的工作是学生项目(2018 年),实验设计和超参数调优可能不够充分
  • 纯 LSTM 的失败是否仅仅因为超参数/规模不够?框架的预测更强:即使规模无限大,纯 LSTM 也不能解约束满足,因为缺乏成对交互是结构性限制
  • 这个更强的预测目前只有间接证据(纯 LSTM cell accuracy 46.7%),没有在超大规模上验证