训练局部改善器 vs 端到端求解器：为什么 ConsFormer 训练 1 步就能无限迭代

看到了什么现象？

在 Sudoku 约束满足的 OOD 测试中，有一组令人困惑的对比数据：

方法	训练迭代步数	测试时增加迭代	OOD 结果
Yang 2023 (Recurrent Transformer)	32 步	32→2000 步	从 32.9% 降到 14%
ConsFormer (Xu 2025, ICML)	1 步	1→10000 步	持续上升到 77.74%

训练 32 步的模型反而不如训练 1 步的——增加迭代时性能反而下降。直觉上，训练更多步应该让模型学到"更完整的迭代策略"，但事实恰恰相反。

为什么这重要？

这个现象揭示了迭代推理中一个根本性的训练范式区别：模型到底在学什么？是"局部改善当前状态"，还是"经过 N 步后到达正确答案"？这个区别决定了测试时能否通过增加计算来处理更难的问题。

解释：局部改善器 vs 端到端求解器

ConsFormer 训练的是"局部改善器"

ConsFormer 的训练过程 [ref]：

输入：一个随机的变量赋值（大概率不可行）
输出：一个"更好"的赋值（约束违反更少）
损失函数：输出的约束违反程度（自监督，不需要正确答案）

关键点：模型学到的是一个关于当前状态的局部函数 f：状态 → 更好的状态。这个函数不依赖于"我是第几步迭代"这个信息。

测试时，反复应用 f：x₀ → f(x₀) → f(f(x₀)) → … → f^n(x₀)。只要 f 确实在减少约束违反，就可以无限迭代。

Yang 2023 训练的是"端到端求解器"

Yang 2023 的 Recurrent Transformer [ref] 在训练时展开 32 步迭代，然后对最终输出计算损失。模型学到的是"经过 32 步后应该输出正确答案"。

问题：模型可能学到了步数特异性行为。“第 5 步做粗略调整”、“第 30 步做精细调整”——这些行为与具体的步数绑定。当测试时步数超过 32，模型不知道"第 100 步应该做什么"。更糟的是，如果模型在第 32 步已经"输出了最终答案"，继续迭代只会扰动这个答案。

Diffusion 也是"局部改善器"

Diffusion model 的训练范式本质上也是局部改善器：

给定噪声水平 t 的输入 xₜ，预测去噪后的 xₜ₋₁（或直接预测噪声 ε）
每一步只做局部去噪，不试图一步到位
测试时通过多步迭代逐渐去噪

这解释了为什么 diffusion-based 方法（如 IRED [ref], Du 2024）也能在 Sudoku 上取得不错的结果（IRED: 62.1% OOD）——它们天然是局部改善器。

Bansal 2022 的"progressive training"

Bansal et al. 2022 [ref] 在研究 recurrent ResNet 的算法外推（extrapolation）时发现了同样的问题——他们称之为**“overthinking”**：当迭代次数超过训练步数时，性能退化。

他们的解决方案是 progressive training：逐渐增加训练时的迭代步数，防止模型学到步数特异性行为。这与 ConsFormer 训练 1 步的理念一致：让模型学会的行为可以无限重复。

更深层的数学联系：压缩映射

如果把局部改善器 f 看作状态空间上的映射，ConsFormer 的成功暗示 f 可能近似于一个压缩映射（contraction mapping）。

Banach 不动点定理（Banach Fixed-Point Theorem）：如果 f 是完备度量空间上的压缩映射（即存在 0 < c < 1 使得对所有 x, y: d(f(x), f(y)) ≤ c·d(x, y)），那么：

f 存在唯一的不动点 x*
从任何初始点 x₀ 出发，序列 x₀, f(x₀), f²(x₀), … 都收敛到 x*
收敛速率由 c 决定

对于约束满足问题，"不动点"就是满足所有约束的解。如果 ConsFormer 学到的 f 是一个压缩映射：

从随机初始化开始，无论迭代多少次都在向解收敛
更难的问题只需要更多迭代（更远的初始点需要更多步收敛）
这解释了 OOD 泛化：更多迭代 → 更高准确率

相比之下，Yang 2023 的 32 步端到端训练不是压缩映射——它是一个"32 步组合函数" f³² = f₃₂ ∘ f₃₁ ∘ … ∘ f₁，每一步的 f 可能不同（不共享权重，或即使共享权重也因步数信息泄漏而行为不同）。

ConsFormer 的随机子集选择可能更重要

ConsFormer 还有一个关键设计：每步只更新一个随机子集的变量（概率 p=0.5-0.9）。论文的消融实验显示 [ref]：

p=1.0（更新所有变量）：快速收敛但很快停滞，Sudoku 只解出 20%
p=0.5-0.9（随机子集）：更慢但稳定收敛到接近 100%

ConsFormer 变量选择概率的消融实验

这类似于随机坐标下降：每步只更新一部分坐标，引入的随机性帮助逃离局部最优。确定性更新（p=1.0）容易陷入循环。

统一图景：迭代推理的训练范式

把这些发现放到 2x2 框架（成对交互 × 可迭代）的上下文中，我们得到了一个更完整的图景：

架构层面：需要"成对交互 + 可迭代"

训练层面：需要"训练局部改善器而非端到端求解器"

这两个层面是正交的：

架构满足但训练不对 → Yang 2023（有成对交互+可迭代，但训练32步端到端 → overthinking）
训练对但架构不满足 → 不存在（没有成对交互的模型即使训练局部改善器也没用，因为单步改善本身就需要成对交互来传播约束）
都满足 → ConsFormer、RRN、diffusion CSP solvers

Geiping 2025 的 recurrent-depth ↔ diffusion 联系

Geiping et al. 2025 [ref] 更直接地证明了 recurrent-depth 模型和 diffusion 模型之间的数学联系。他们发现 recurrent-depth 模型可以被视为"强连续的因果扩散语言模型"。两者的核心都是：

通过迭代细化（iterative refinement）生成输出
每一步只做局部改善
测试时可以增加步数来提高质量

批判性反思

压缩映射只是一个类比。ConsFormer 的 f 可能不是严格的压缩映射——它使用 Gumbel-Softmax（离散化），状态空间不连续。Banach 定理的条件可能不完全满足。但"近似压缩映射"的直觉可能仍然有效。
Yang 2023 的失败可能有其他原因。比如梯度消失/爆炸在 32 步展开中更严重，或者训练不够充分。ConsFormer 的成功可能部分归功于自监督损失（不需要标签），而不仅仅是单步训练。
"训练步数应尽可能少"可能太强了。可能存在一个最优的训练步数——不是 1 步也不是 32 步，而是某个中间值。ConsFormer 论文没有测试训练 2 步或 5 步的情况。
Bansal 2022 的 progressive training 是另一种方案。不一定要训练 1 步——逐渐增加训练步数也能避免 overthinking。两种方法的关系需要更多实验数据。
这个理论对 LLM 的 chain-of-thought 有什么含义？ CoT 本质上是一种迭代推理，但它不是"局部改善器"——每个 token 的生成依赖于前面所有 token。这可能是 CoT 在约束满足问题上效果有限的原因之一（Transformer 的 autoregressive 输出不允许"回溯修改"之前的 token）。

开放问题

ConsFormer 训练 2 步或 5 步效果如何？ 是否存在一个最优的训练步数？
能否测量 ConsFormer 的 f 是否接近压缩映射？ 比如测量 d(f(x), f(y)) / d(x, y) 的平均值。
这个"局部改善器"范式能否应用于 LLM 的推理？ 比如训练一个模型"改善当前的推理步骤"，而不是"生成完整的推理链"。

关键引用

Xu et al. (2025). Self-Supervised Transformers as Iterative Solution Improvers for Constraint Satisfaction. ICML. [ref]
Yang et al. (2023). Learning to Solve Constraint Satisfaction Problems with Recurrent Transformer. ICLR. [ref]
Bansal et al. (2022). End-to-end Algorithm Synthesis with Recurrent Networks: Extrapolation without Overthinking. NeurIPS. [ref]
Du et al. (2024). Learning Iterative Reasoning through Energy Diffusion. ICML. [ref]
Geiping et al. (2025). Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models. [ref]
Anil et al. (2022). Path Independent Equilibrium Models Can Better Exploit Test-Time Computation. NeurIPS. [ref]