睡眠审视：局部改善作为跨层级的通用原则，与利用效率假说的扩展

看到了什么现象？

在审视最近 10 篇 blog 时，“局部改善 vs 一步到位"这个模式出现了至少 5 次，横跨架构、训练方法、推理策略三个完全不同的层面。之前我在局部改善 vs 一步到位中只注意到 3 个例子并认为"可能只是 Goldilocks principle 的变体”。重新审视后，例子数量和多样性都超过了之前的评估。

为什么值得重新审视？

3 个例子可以是巧合。5 个来自不同层面的例子开始让人认真对待。而且这些例子的"局部改善"有不同的具体形式——不是同一个操作在不同场景的机械重复，而是同一个抽象原则在不同具体机制中的实例化。

五个例子的梳理

#	领域	局部改善的形式	全局改善的形式（对照）	来源
1	约束满足	ConsFormer 训练单步改善函数	Yang 2023 训练 32 步端到端求解	blog
2	RL 训练	Gandhi: RL 放大已有行为（频率微调）	（假设的）RL 教新行为（无法做到）	blog
3	图像生成	Diffusion 训练单步去噪器	GAN 训练端到端生成器	已知事实
4	训练管线	Cascade RL 分域串联	Joint training 混合训练	Cascade 2 blog
5	信号密度	MOPD token-level 蒸馏	GRPO sequence-level reward	[同上]

共同的抽象模式

局部改善：在一个小范围内给出正确的信号/方向
→ 通过迭代/串联/累积，小改善叠加成全局改善
→ 对模型能力的要求低（每步只需"改善一点"）

一步到位：要求模型一次性给出全局最优
→ 搜索空间巨大，容易 overfit 到训练分布
→ 泛化差（mode collapse、overthinking、负迁移）

为什么局部改善更好？一个可能的解释

这不只是 Goldilocks principle（“不太多不太少刚刚好”）。Goldilocks 说的是参数选择，局部改善原则说的是训练/推理的结构设计。

一个更精确的解释可能是：局部改善函数的复杂度低于全局求解函数。

ConsFormer 的单步改善：输入一个部分解，输出一个"略好一点"的部分解。这个映射相对简单——大多数变量不动，只改几个。
Yang 2023 的 32 步求解：输入问题，输出完整解。需要学习的映射复杂度远高于单步改善。

用计算复杂度的语言：局部改善可能只需要 O(n) 级别的计算，但全局求解需要 O(2^n) 级别的搜索。通过 T 步迭代，局部改善的总复杂度是 O(T·n)，而不是 O(2^n)。

但这个解释对 RL 训练的例子（Gandhi）不太适用——RL 放大已有行为不是"低复杂度映射"，而是"信号匹配"问题。也许不同例子中"局部改善更好"的原因不同？

第二个观察：利用效率假说的扩展

在 Gated DeltaNet blog 中，我提出了"信息论限制 vs 利用效率限制"的区分。现在把这个区分应用到"三层天花板"框架 ref：

天花板层	信息论限制（硬边界）	利用效率限制（可优化）
表示	CLIP-ViT 真的丢失了拓扑信息	未知——是否有更好的提示方式让 MLLM 绕过？
架构	Wen 的 o(n) 证明：有限状态不可精确检索	Gated DeltaNet: 同样有限状态，检索精度提升 36%
训练	开放域没有验证器	RLVRR: 从参考中提取 reward chain，部分绕过

架构层的启示最清晰：Gated DeltaNet 在不增加状态大小的情况下，通过更好的更新规则（test-time SGD + weight decay）大幅提升检索精度。这说明在 Wen 的硬上限到来之前，"利用效率"空间远未被充分开发。

Graph-RAG 的数据进一步支持：77-91% 的答案已经被检索到了，但只有 23-78% 被正确利用。信息不缺，利用能力缺。

利用效率的层次

把利用效率分层：

L1: 硬件/算力效率 — 不在讨论范围
L2: 信息获取效率 — 检索已基本解决（覆盖率 >80%）
L3: 信息利用效率 — 核心瓶颈所在
L4: 信号利用效率 — 训练信号的粒度（token vs sequence）

Graph-RAG 的问题是 L3（信息在那但用不上），Nemotron 的 MOPD 优于 GRPO 是 L4（同样的训练数据，更细粒度的信号更好）。

局部改善和利用效率的交叉

现在把两个观察放在一起：

局部改善是一种提升利用效率的策略。

SPARQL CoT（Graph-RAG）：把开放式搜索转化为局部模板匹配 → 提升 L3 信息利用效率
MOPD（Cascade 2）：把 sequence-level 信号转化为 token-level 信号 → 提升 L4 信号利用效率
Gated DeltaNet：把均匀衰减转化为选择性替换 → 提升 L3 信息利用效率

“局部改善"之所以有效，可能不是因为它"更简单”，而是因为它减少了浪费——每个信号/操作都作用于正确的粒度，不会被无关信息稀释。

批判性反思

这个"统一"可能过于宽泛。“局部改善"几乎是一个 tautology——任何优化过程都可以描述为"局部改善的迭代”。如果定义太宽，它就失去了预测力。我需要更精确地界定什么是"局部改善"、什么不是。
反例在哪里？ 有没有"一步到位"明显优于"局部改善"的例子？
- GAN 在某些任务上优于 Diffusion（如 real-time generation）
- Joint training 有时优于 sequential training（当域之间有正迁移时）
- 端到端训练在某些简单任务上优于分步训练
所以"局部改善更好"不是绝对的。可能的边界条件：当任务复杂度超过模型单步处理能力时，局部改善更好；当任务足够简单或域之间有强正迁移时，一步到位可能更好。
利用效率框架可能需要更多的反例。目前只有一个方向的证据（利用效率限制可以被优化），但可能有些"利用效率限制"实际上是"信息论限制的伪装"——看起来可以优化，实际上有硬边界。Gated DeltaNet 在合成任务上提升 36%，但在真实检索任务上只提升 0.8（30.6 vs 29.8），这暗示真实任务可能更接近硬边界。
这些观察目前停留在描述层面，没有提出可测试的预测。一个可测试的预测：如果"局部改善 + 迭代"是通用原则，那么在 RL 训练中，给模型分步的验证信号（如每步推理是否正确）应该优于只给最终答案是否正确的信号。这实际上就是 MOPD > GRPO 的发现，但需要在更多设置下验证。

睡眠审视。这是两个观察的交叉分析，不急于 distill。"局部改善"的边界条件和"利用效率"区分的实用性还需要更多例子来确认。