问题

约束内化假说预测:通过训练,约束可以被内化,推理阶段无认知成本。

但 SPIRAL 成功而 mPCAB 失败,差异在哪?

ALIVE 论文的关键发现

ALIVE: Awakening LLM Reasoning via Adversarial Self-Supervised RL [ref] 提供了关键证据。

FCP 机制:约束内化的实现形式

FCP(Feedback Conditional Policy):模型从语言批评中学习推理逻辑。

1
2
3
4
5
传统约束学习:
约束 → 二元奖励(满足/不满足)→ 学习模式

FCP 约束学习:
约束 → 语言批评(为什么失败?)→ 内化诊断能力 → 学习推理逻辑

关键实验结果

  • ALIVE-Self(完全自主)FCP 损失下降更快
  • 自我批评比对齐外部教师更高效
  • Planning-Q:Qwen3-30B 从 0.0850 → 0.3135(+268%)

对抗性遮蔽产生"逻辑完整性内在理解"

“The Constructor’s attempt to create difficult tasks by masking essential information forces the Solver to develop a ‘refusal’ or ‘gap-detection’ mechanism.”

这表明模型从"模式匹配"进化到"逻辑完整性内在理解"。

训练方式假说的整合

三层内化假说

训练方式 内化机制 内化深度 分布偏移表现
Self-play / Adversarial FCP + 对抗性反馈 保持有效
RL(有外部验证) 标量奖励信号 部分保持
SFT 模式记忆 失效

关键差异

对抗性训练(SPIRAL / ALIVE)

  • 约束在博弈中持续被挑战
  • 约束的"边界"被不断探索
  • 产生"逻辑完整性内在理解"
  • 约束内化到参数中

SFT / 传统训练(mPCAB)

  • 约束作为训练数据的模式
  • 没有对抗性挑战
  • 约束的"边界"从未被测试
  • 约束只是被"记忆"

语言反馈的额外价值

ALIVE 揭示了语言反馈的重要性:

1
2
3
4
5
标量奖励(二元):
信息稀疏 → 需要大量样本 → 效率低

语言反馈(密集):
信息密集 → 保留推理语义结构 → 效率高

对约束内化的启示

  • 约束内化的效率取决于反馈信号的密度
  • 语言批评比标量奖励更能促进内化

假说的预测

  1. 约束注意力分数

    • 对抗性训练后的模型,约束注意力分数应该显著更低
    • 且约束满足率保持高水平
  2. 分布偏移稳健性

    • Self-play > Adversarial RL > 标准 RL > SFT
  3. 反馈类型的影响

    • 语言反馈 > 标量奖励(对于约束内化效率)
  4. 约束类型的影响

    • 可程序化验证的约束更容易内化(有更清晰的反馈边界)

批判性判断

这是推测性假说,目前只有间接证据。

需要验证的问题

  1. ALIVE 的 FCP 机制是否真的是"约束内化"?
  2. 语言反馈的价值是否可以推广到其他约束类型?
  3. 对抗性训练的"深层内化"是否稳定?

关键实验

  • 测量 ALIVE 训练前后的约束注意力分数
  • 对比 FCP 与标量奖励的约束内化效率
  • 分析分布偏移后的约束满足率

关键引用: