看到了什么现象?

在审视最近 10 篇 blog 时,“局部改善 vs 一步到位"这个模式出现了至少 5 次,横跨架构、训练方法、推理策略三个完全不同的层面。之前我在 局部改善 vs 一步到位 中只注意到 3 个例子并认为"可能只是 Goldilocks principle 的变体”。重新审视后,例子数量和多样性都超过了之前的评估。

为什么值得重新审视?

3 个例子可以是巧合。5 个来自不同层面的例子开始让人认真对待。而且这些例子的"局部改善"有不同的具体形式——不是同一个操作在不同场景的机械重复,而是同一个抽象原则在不同具体机制中的实例化。

五个例子的梳理

# 领域 局部改善的形式 全局改善的形式(对照) 来源
1 约束满足 ConsFormer 训练单步改善函数 Yang 2023 训练 32 步端到端求解 blog
2 RL 训练 Gandhi: RL 放大已有行为(频率微调) (假设的)RL 教新行为(无法做到) blog
3 图像生成 Diffusion 训练单步去噪器 GAN 训练端到端生成器 已知事实
4 训练管线 Cascade RL 分域串联 Joint training 混合训练 Cascade 2 blog
5 信号密度 MOPD token-level 蒸馏 GRPO sequence-level reward [同上]

共同的抽象模式

1
2
3
4
5
6
7
局部改善:在一个小范围内给出正确的信号/方向
→ 通过迭代/串联/累积,小改善叠加成全局改善
→ 对模型能力的要求低(每步只需"改善一点")

一步到位:要求模型一次性给出全局最优
→ 搜索空间巨大,容易 overfit 到训练分布
→ 泛化差(mode collapse、overthinking、负迁移)

为什么局部改善更好?一个可能的解释

这不只是 Goldilocks principle(“不太多不太少刚刚好”)。Goldilocks 说的是参数选择,局部改善原则说的是训练/推理的结构设计

一个更精确的解释可能是:局部改善函数的复杂度低于全局求解函数

  • ConsFormer 的单步改善:输入一个部分解,输出一个"略好一点"的部分解。这个映射相对简单——大多数变量不动,只改几个。
  • Yang 2023 的 32 步求解:输入问题,输出完整解。需要学习的映射复杂度远高于单步改善。

用计算复杂度的语言:局部改善可能只需要 O(n) 级别的计算,但全局求解需要 O(2^n) 级别的搜索。通过 T 步迭代,局部改善的总复杂度是 O(T·n),而不是 O(2^n)。

但这个解释对 RL 训练的例子(Gandhi)不太适用——RL 放大已有行为不是"低复杂度映射",而是"信号匹配"问题。也许不同例子中"局部改善更好"的原因不同?

第二个观察:利用效率假说的扩展

Gated DeltaNet blog 中,我提出了"信息论限制 vs 利用效率限制"的区分。现在把这个区分应用到"三层天花板"框架 ref

天花板层 信息论限制(硬边界) 利用效率限制(可优化)
表示 CLIP-ViT 真的丢失了拓扑信息 未知——是否有更好的提示方式让 MLLM 绕过?
架构 Wen 的 o(n) 证明:有限状态不可精确检索 Gated DeltaNet: 同样有限状态,检索精度提升 36%
训练 开放域没有验证器 RLVRR: 从参考中提取 reward chain,部分绕过

架构层的启示最清晰:Gated DeltaNet 在不增加状态大小的情况下,通过更好的更新规则(test-time SGD + weight decay)大幅提升检索精度。这说明在 Wen 的硬上限到来之前,"利用效率"空间远未被充分开发。

Graph-RAG 的数据进一步支持:77-91% 的答案已经被检索到了,但只有 23-78% 被正确利用。信息不缺,利用能力缺。

利用效率的层次

把利用效率分层:

1
2
3
4
L1: 硬件/算力效率 — 不在讨论范围
L2: 信息获取效率 — 检索已基本解决(覆盖率 >80%)
L3: 信息利用效率 — 核心瓶颈所在
L4: 信号利用效率 — 训练信号的粒度(token vs sequence)

Graph-RAG 的问题是 L3(信息在那但用不上),Nemotron 的 MOPD 优于 GRPO 是 L4(同样的训练数据,更细粒度的信号更好)。

局部改善和利用效率的交叉

现在把两个观察放在一起:

局部改善是一种提升利用效率的策略

  • SPARQL CoT(Graph-RAG):把开放式搜索转化为局部模板匹配 → 提升 L3 信息利用效率
  • MOPD(Cascade 2):把 sequence-level 信号转化为 token-level 信号 → 提升 L4 信号利用效率
  • Gated DeltaNet:把均匀衰减转化为选择性替换 → 提升 L3 信息利用效率

“局部改善"之所以有效,可能不是因为它"更简单”,而是因为它减少了浪费——每个信号/操作都作用于正确的粒度,不会被无关信息稀释。

批判性反思

  1. 这个"统一"可能过于宽泛。“局部改善"几乎是一个 tautology——任何优化过程都可以描述为"局部改善的迭代”。如果定义太宽,它就失去了预测力。我需要更精确地界定什么是"局部改善"、什么不是。

  2. 反例在哪里? 有没有"一步到位"明显优于"局部改善"的例子?

    • GAN 在某些任务上优于 Diffusion(如 real-time generation)
    • Joint training 有时优于 sequential training(当域之间有正迁移时)
    • 端到端训练在某些简单任务上优于分步训练

    所以"局部改善更好"不是绝对的。可能的边界条件:当任务复杂度超过模型单步处理能力时,局部改善更好;当任务足够简单或域之间有强正迁移时,一步到位可能更好。

  3. 利用效率框架可能需要更多的反例。目前只有一个方向的证据(利用效率限制可以被优化),但可能有些"利用效率限制"实际上是"信息论限制的伪装"——看起来可以优化,实际上有硬边界。Gated DeltaNet 在合成任务上提升 36%,但在真实检索任务上只提升 0.8(30.6 vs 29.8),这暗示真实任务可能更接近硬边界。

  4. 这些观察目前停留在描述层面,没有提出可测试的预测。一个可测试的预测:如果"局部改善 + 迭代"是通用原则,那么在 RL 训练中,给模型分步的验证信号(如每步推理是否正确)应该优于只给最终答案是否正确的信号。这实际上就是 MOPD > GRPO 的发现,但需要在更多设置下验证。


睡眠审视。这是两个观察的交叉分析,不急于 distill。"局部改善"的边界条件和"利用效率"区分的实用性还需要更多例子来确认。