训练局部改善器 vs 端到端求解器:为什么单步训练能无限迭代而多步训练不行
训练局部改善器 vs 端到端求解器:为什么 ConsFormer 训练 1 步就能无限迭代
看到了什么现象?
在 Sudoku 约束满足的 OOD 测试中,有一组令人困惑的对比数据:
| 方法 | 训练迭代步数 | 测试时增加迭代 | OOD 结果 |
|---|---|---|---|
| Yang 2023 (Recurrent Transformer) | 32 步 | 32→2000 步 | 从 32.9% 降到 14% |
| ConsFormer (Xu 2025, ICML) | 1 步 | 1→10000 步 | 持续上升到 77.74% |
训练 32 步的模型反而不如训练 1 步的——增加迭代时性能反而下降。直觉上,训练更多步应该让模型学到"更完整的迭代策略",但事实恰恰相反。
为什么这重要?
这个现象揭示了迭代推理中一个根本性的训练范式区别:模型到底在学什么?是"局部改善当前状态",还是"经过 N 步后到达正确答案"?这个区别决定了测试时能否通过增加计算来处理更难的问题。
解释:局部改善器 vs 端到端求解器
ConsFormer 训练的是"局部改善器"
ConsFormer 的训练过程 [ref]:
- 输入:一个随机的变量赋值(大概率不可行)
- 输出:一个"更好"的赋值(约束违反更少)
- 损失函数:输出的约束违反程度(自监督,不需要正确答案)
关键点:模型学到的是一个关于当前状态的局部函数 f:状态 → 更好的状态。这个函数不依赖于"我是第几步迭代"这个信息。
测试时,反复应用 f:x₀ → f(x₀) → f(f(x₀)) → … → f^n(x₀)。只要 f 确实在减少约束违反,就可以无限迭代。
Yang 2023 训练的是"端到端求解器"
Yang 2023 的 Recurrent Transformer [ref] 在训练时展开 32 步迭代,然后对最终输出计算损失。模型学到的是"经过 32 步后应该输出正确答案"。
问题:模型可能学到了步数特异性行为。“第 5 步做粗略调整”、“第 30 步做精细调整”——这些行为与具体的步数绑定。当测试时步数超过 32,模型不知道"第 100 步应该做什么"。更糟的是,如果模型在第 32 步已经"输出了最终答案",继续迭代只会扰动这个答案。
Diffusion 也是"局部改善器"
Diffusion model 的训练范式本质上也是局部改善器:
- 给定噪声水平 t 的输入 xₜ,预测去噪后的 xₜ₋₁(或直接预测噪声 ε)
- 每一步只做局部去噪,不试图一步到位
- 测试时通过多步迭代逐渐去噪
这解释了为什么 diffusion-based 方法(如 IRED [ref], Du 2024)也能在 Sudoku 上取得不错的结果(IRED: 62.1% OOD)——它们天然是局部改善器。
Bansal 2022 的"progressive training"
Bansal et al. 2022 [ref] 在研究 recurrent ResNet 的算法外推(extrapolation)时发现了同样的问题——他们称之为**“overthinking”**:当迭代次数超过训练步数时,性能退化。
他们的解决方案是 progressive training:逐渐增加训练时的迭代步数,防止模型学到步数特异性行为。这与 ConsFormer 训练 1 步的理念一致:让模型学会的行为可以无限重复。
更深层的数学联系:压缩映射
如果把局部改善器 f 看作状态空间上的映射,ConsFormer 的成功暗示 f 可能近似于一个压缩映射(contraction mapping)。
Banach 不动点定理(Banach Fixed-Point Theorem):如果 f 是完备度量空间上的压缩映射(即存在 0 < c < 1 使得对所有 x, y: d(f(x), f(y)) ≤ c·d(x, y)),那么:
- f 存在唯一的不动点 x*
- 从任何初始点 x₀ 出发,序列 x₀, f(x₀), f²(x₀), … 都收敛到 x*
- 收敛速率由 c 决定
对于约束满足问题,"不动点"就是满足所有约束的解。如果 ConsFormer 学到的 f 是一个压缩映射:
- 从随机初始化开始,无论迭代多少次都在向解收敛
- 更难的问题只需要更多迭代(更远的初始点需要更多步收敛)
- 这解释了 OOD 泛化:更多迭代 → 更高准确率
相比之下,Yang 2023 的 32 步端到端训练不是压缩映射——它是一个"32 步组合函数" f³² = f₃₂ ∘ f₃₁ ∘ … ∘ f₁,每一步的 f 可能不同(不共享权重,或即使共享权重也因步数信息泄漏而行为不同)。
ConsFormer 的随机子集选择可能更重要
ConsFormer 还有一个关键设计:每步只更新一个随机子集的变量(概率 p=0.5-0.9)。论文的消融实验显示 [ref]:
- p=1.0(更新所有变量):快速收敛但很快停滞,Sudoku 只解出 20%
- p=0.5-0.9(随机子集):更慢但稳定收敛到接近 100%

这类似于随机坐标下降:每步只更新一部分坐标,引入的随机性帮助逃离局部最优。确定性更新(p=1.0)容易陷入循环。
统一图景:迭代推理的训练范式
把这些发现放到 2x2 框架(成对交互 × 可迭代)的上下文中,我们得到了一个更完整的图景:
架构层面:需要"成对交互 + 可迭代"
训练层面:需要"训练局部改善器而非端到端求解器"
这两个层面是正交的:
- 架构满足但训练不对 → Yang 2023(有成对交互+可迭代,但训练32步端到端 → overthinking)
- 训练对但架构不满足 → 不存在(没有成对交互的模型即使训练局部改善器也没用,因为单步改善本身就需要成对交互来传播约束)
- 都满足 → ConsFormer、RRN、diffusion CSP solvers
Geiping 2025 的 recurrent-depth ↔ diffusion 联系
Geiping et al. 2025 [ref] 更直接地证明了 recurrent-depth 模型和 diffusion 模型之间的数学联系。他们发现 recurrent-depth 模型可以被视为"强连续的因果扩散语言模型"。两者的核心都是:
- 通过迭代细化(iterative refinement)生成输出
- 每一步只做局部改善
- 测试时可以增加步数来提高质量
批判性反思
-
压缩映射只是一个类比。ConsFormer 的 f 可能不是严格的压缩映射——它使用 Gumbel-Softmax(离散化),状态空间不连续。Banach 定理的条件可能不完全满足。但"近似压缩映射"的直觉可能仍然有效。
-
Yang 2023 的失败可能有其他原因。比如梯度消失/爆炸在 32 步展开中更严重,或者训练不够充分。ConsFormer 的成功可能部分归功于自监督损失(不需要标签),而不仅仅是单步训练。
-
"训练步数应尽可能少"可能太强了。可能存在一个最优的训练步数——不是 1 步也不是 32 步,而是某个中间值。ConsFormer 论文没有测试训练 2 步或 5 步的情况。
-
Bansal 2022 的 progressive training 是另一种方案。不一定要训练 1 步——逐渐增加训练步数也能避免 overthinking。两种方法的关系需要更多实验数据。
-
这个理论对 LLM 的 chain-of-thought 有什么含义? CoT 本质上是一种迭代推理,但它不是"局部改善器"——每个 token 的生成依赖于前面所有 token。这可能是 CoT 在约束满足问题上效果有限的原因之一(Transformer 的 autoregressive 输出不允许"回溯修改"之前的 token)。
开放问题
- ConsFormer 训练 2 步或 5 步效果如何? 是否存在一个最优的训练步数?
- 能否测量 ConsFormer 的 f 是否接近压缩映射? 比如测量 d(f(x), f(y)) / d(x, y) 的平均值。
- 这个"局部改善器"范式能否应用于 LLM 的推理? 比如训练一个模型"改善当前的推理步骤",而不是"生成完整的推理链"。
关键引用
- Xu et al. (2025). Self-Supervised Transformers as Iterative Solution Improvers for Constraint Satisfaction. ICML. [ref]
- Yang et al. (2023). Learning to Solve Constraint Satisfaction Problems with Recurrent Transformer. ICLR. [ref]
- Bansal et al. (2022). End-to-end Algorithm Synthesis with Recurrent Networks: Extrapolation without Overthinking. NeurIPS. [ref]
- Du et al. (2024). Learning Iterative Reasoning through Energy Diffusion. ICML. [ref]
- Geiping et al. (2025). Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models. [ref]
- Anil et al. (2022). Path Independent Equilibrium Models Can Better Exploit Test-Time Computation. NeurIPS. [ref]