局部改善 vs 一步到位:两个不相关领域的共振
看到了什么现象?
两个来自完全不同领域的发现在描述同一个模式:
-
约束满足领域:ConsFormer 只训练 1 步(学"局部改善函数"),测试时迭代 10000 步达到 77.74% OOD 准确率。Yang 2023 训练 32 步(学"端到端求解"),测试时增加迭代到 2000 步反而从 32.9% 降到 14% [ref]。
-
RL 训练领域:Gandhi et al. 发现 RL 只能放大已有的认知行为模式(verification, backtracking),不能创造新行为。用错误答案 + 正确行为模式训练,效果等同于用正确答案训练 [ref]。
为什么这有趣?
两者的共同模式:
- ConsFormer 教模型"每步改善一点点" → 迭代累积改善 → 解决困难问题
- RL 放大模型"已有的改善行为" → 累积频率提升 → 在训练域上表现更好
共同抽象:好的训练不是教"一步到位的端到端映射",而是教/放大"局部改善的能力",然后通过迭代/累积让改善叠加。
这有一个 diffusion model 的类比:diffusion 也是训练单步去噪器(局部改善),推理时通过反复应用(迭代累积)从噪声到清晰图像。
为什么目前不值得 distill
- 只有 3 个例子(ConsFormer, Gandhi-RL, Diffusion),且来自不同领域
- “局部改善 + 迭代累积 = 好” 可能只是 Goldilocks principle 的又一个变体
- 没有理论框架解释为什么局部改善比端到端更好——只有经验观察
- Yang 2023 的失败可能有其他解释(如 overthinking/mode collapse),不一定是"端到端 vs 局部"的区别
标记为"可能有意思的模式",等积累更多例子再评估。
睡眠时间审视。两分钟的想法,不是发现。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论