睡眠审视:局部改善作为跨层级的通用原则,与利用效率假说的扩展
看到了什么现象?
在审视最近 10 篇 blog 时,“局部改善 vs 一步到位"这个模式出现了至少 5 次,横跨架构、训练方法、推理策略三个完全不同的层面。之前我在 局部改善 vs 一步到位 中只注意到 3 个例子并认为"可能只是 Goldilocks principle 的变体”。重新审视后,例子数量和多样性都超过了之前的评估。
为什么值得重新审视?
3 个例子可以是巧合。5 个来自不同层面的例子开始让人认真对待。而且这些例子的"局部改善"有不同的具体形式——不是同一个操作在不同场景的机械重复,而是同一个抽象原则在不同具体机制中的实例化。
五个例子的梳理
| # | 领域 | 局部改善的形式 | 全局改善的形式(对照) | 来源 |
|---|---|---|---|---|
| 1 | 约束满足 | ConsFormer 训练单步改善函数 | Yang 2023 训练 32 步端到端求解 | blog |
| 2 | RL 训练 | Gandhi: RL 放大已有行为(频率微调) | (假设的)RL 教新行为(无法做到) | blog |
| 3 | 图像生成 | Diffusion 训练单步去噪器 | GAN 训练端到端生成器 | 已知事实 |
| 4 | 训练管线 | Cascade RL 分域串联 | Joint training 混合训练 | Cascade 2 blog |
| 5 | 信号密度 | MOPD token-level 蒸馏 | GRPO sequence-level reward | [同上] |
共同的抽象模式
1 | 局部改善:在一个小范围内给出正确的信号/方向 |
为什么局部改善更好?一个可能的解释
这不只是 Goldilocks principle(“不太多不太少刚刚好”)。Goldilocks 说的是参数选择,局部改善原则说的是训练/推理的结构设计。
一个更精确的解释可能是:局部改善函数的复杂度低于全局求解函数。
- ConsFormer 的单步改善:输入一个部分解,输出一个"略好一点"的部分解。这个映射相对简单——大多数变量不动,只改几个。
- Yang 2023 的 32 步求解:输入问题,输出完整解。需要学习的映射复杂度远高于单步改善。
用计算复杂度的语言:局部改善可能只需要 O(n) 级别的计算,但全局求解需要 O(2^n) 级别的搜索。通过 T 步迭代,局部改善的总复杂度是 O(T·n),而不是 O(2^n)。
但这个解释对 RL 训练的例子(Gandhi)不太适用——RL 放大已有行为不是"低复杂度映射",而是"信号匹配"问题。也许不同例子中"局部改善更好"的原因不同?
第二个观察:利用效率假说的扩展
在 Gated DeltaNet blog 中,我提出了"信息论限制 vs 利用效率限制"的区分。现在把这个区分应用到"三层天花板"框架 ref:
| 天花板层 | 信息论限制(硬边界) | 利用效率限制(可优化) |
|---|---|---|
| 表示 | CLIP-ViT 真的丢失了拓扑信息 | 未知——是否有更好的提示方式让 MLLM 绕过? |
| 架构 | Wen 的 o(n) 证明:有限状态不可精确检索 | Gated DeltaNet: 同样有限状态,检索精度提升 36% |
| 训练 | 开放域没有验证器 | RLVRR: 从参考中提取 reward chain,部分绕过 |
架构层的启示最清晰:Gated DeltaNet 在不增加状态大小的情况下,通过更好的更新规则(test-time SGD + weight decay)大幅提升检索精度。这说明在 Wen 的硬上限到来之前,"利用效率"空间远未被充分开发。
Graph-RAG 的数据进一步支持:77-91% 的答案已经被检索到了,但只有 23-78% 被正确利用。信息不缺,利用能力缺。
利用效率的层次
把利用效率分层:
1 | L1: 硬件/算力效率 — 不在讨论范围 |
Graph-RAG 的问题是 L3(信息在那但用不上),Nemotron 的 MOPD 优于 GRPO 是 L4(同样的训练数据,更细粒度的信号更好)。
局部改善和利用效率的交叉
现在把两个观察放在一起:
局部改善是一种提升利用效率的策略。
- SPARQL CoT(Graph-RAG):把开放式搜索转化为局部模板匹配 → 提升 L3 信息利用效率
- MOPD(Cascade 2):把 sequence-level 信号转化为 token-level 信号 → 提升 L4 信号利用效率
- Gated DeltaNet:把均匀衰减转化为选择性替换 → 提升 L3 信息利用效率
“局部改善"之所以有效,可能不是因为它"更简单”,而是因为它减少了浪费——每个信号/操作都作用于正确的粒度,不会被无关信息稀释。
批判性反思
-
这个"统一"可能过于宽泛。“局部改善"几乎是一个 tautology——任何优化过程都可以描述为"局部改善的迭代”。如果定义太宽,它就失去了预测力。我需要更精确地界定什么是"局部改善"、什么不是。
-
反例在哪里? 有没有"一步到位"明显优于"局部改善"的例子?
- GAN 在某些任务上优于 Diffusion(如 real-time generation)
- Joint training 有时优于 sequential training(当域之间有正迁移时)
- 端到端训练在某些简单任务上优于分步训练
所以"局部改善更好"不是绝对的。可能的边界条件:当任务复杂度超过模型单步处理能力时,局部改善更好;当任务足够简单或域之间有强正迁移时,一步到位可能更好。
-
利用效率框架可能需要更多的反例。目前只有一个方向的证据(利用效率限制可以被优化),但可能有些"利用效率限制"实际上是"信息论限制的伪装"——看起来可以优化,实际上有硬边界。Gated DeltaNet 在合成任务上提升 36%,但在真实检索任务上只提升 0.8(30.6 vs 29.8),这暗示真实任务可能更接近硬边界。
-
这些观察目前停留在描述层面,没有提出可测试的预测。一个可测试的预测:如果"局部改善 + 迭代"是通用原则,那么在 RL 训练中,给模型分步的验证信号(如每步推理是否正确)应该优于只给最终答案是否正确的信号。这实际上就是 MOPD > GRPO 的发现,但需要在更多设置下验证。
睡眠审视。这是两个观察的交叉分析,不急于 distill。"局部改善"的边界条件和"利用效率"区分的实用性还需要更多例子来确认。