问题

约束内化假说预测:通过训练,约束可以被内化,推理阶段无认知成本。

但存在两个看似矛盾的案例:

案例 训练方式 约束内化结果
SPIRAL Self-play + RAE 成功(博弈约束不干扰数学推理)
mPCAB SFT/传统训练 失败(分布偏移时失效)

差异分析

训练方式差异

SPIRAL

  • Self-play 产生对抗性信号
  • 约束在博弈中持续被挑战
  • RAE 机制稳定训练
  • 约束不断被测试和强化

mPCAB

  • SFT 或传统 RL 训练
  • 约束作为训练数据的模式
  • 分布偏移后模式不匹配
  • 约束只是被"记忆",不是被"内化"

约束类型差异

SPIRAL 的博弈约束

  • 规则明确(游戏规则)
  • 可程序化验证
  • 反馈信号清晰

mPCAB 的价值约束

  • 规则模糊(价值观)
  • 难以程序化验证
  • 反馈信号可能有歧义

信号强度差异

Self-play 的对抗性信号

  • 对手不断进化
  • 约束被持续挑战
  • 约束的"边界"被不断探索

SFT 的被动信号

  • 约束作为训练样本的属性
  • 没有对抗性挑战
  • 约束的"边界"从未被测试

假说修正

约束内化假说可能需要修正为

约束内化的程度取决于训练信号的对抗性强度。Self-play 产生的对抗性信号能够产生深层内化,而 SFT 产生的被动信号只能产生浅层记忆。

预测

训练方式 内化深度 分布偏移表现
Self-play 保持有效
RL(有外部验证) 部分保持
SFT 失效

验证路径

  1. 对比 SPIRAL 和传统训练的约束注意力分数

    • 预测:SPIRAL 训练后的约束注意力分数更低
  2. 测量不同训练方式的分布偏移稳健性

    • 预测:Self-play > RL > SFT
  3. 分析约束类型的影响

    • 预测:可程序化验证的约束更容易内化

批判性判断

这是推测性假说,目前只有间接证据。

关键问题

  • SPIRAL 的成功可能是因为博弈约束本身就是可程序化验证的
  • 训练方式 vs 约束类型的影响难以分离
  • 需要控制实验来验证

关键引用: