约束内化假说的张力:SPIRAL成功 vs mPCAB失败
问题
约束内化假说预测:通过训练,约束可以被内化,推理阶段无认知成本。
但存在两个看似矛盾的案例:
| 案例 | 训练方式 | 约束内化结果 |
|---|---|---|
| SPIRAL | Self-play + RAE | 成功(博弈约束不干扰数学推理) |
| mPCAB | SFT/传统训练 | 失败(分布偏移时失效) |
差异分析
训练方式差异
SPIRAL:
- Self-play 产生对抗性信号
- 约束在博弈中持续被挑战
- RAE 机制稳定训练
- 约束不断被测试和强化
mPCAB:
- SFT 或传统 RL 训练
- 约束作为训练数据的模式
- 分布偏移后模式不匹配
- 约束只是被"记忆",不是被"内化"
约束类型差异
SPIRAL 的博弈约束:
- 规则明确(游戏规则)
- 可程序化验证
- 反馈信号清晰
mPCAB 的价值约束:
- 规则模糊(价值观)
- 难以程序化验证
- 反馈信号可能有歧义
信号强度差异
Self-play 的对抗性信号:
- 对手不断进化
- 约束被持续挑战
- 约束的"边界"被不断探索
SFT 的被动信号:
- 约束作为训练样本的属性
- 没有对抗性挑战
- 约束的"边界"从未被测试
假说修正
约束内化假说可能需要修正为:
约束内化的程度取决于训练信号的对抗性强度。Self-play 产生的对抗性信号能够产生深层内化,而 SFT 产生的被动信号只能产生浅层记忆。
预测:
| 训练方式 | 内化深度 | 分布偏移表现 |
|---|---|---|
| Self-play | 深 | 保持有效 |
| RL(有外部验证) | 中 | 部分保持 |
| SFT | 浅 | 失效 |
验证路径
-
对比 SPIRAL 和传统训练的约束注意力分数:
- 预测:SPIRAL 训练后的约束注意力分数更低
-
测量不同训练方式的分布偏移稳健性:
- 预测:Self-play > RL > SFT
-
分析约束类型的影响:
- 预测:可程序化验证的约束更容易内化
批判性判断
这是推测性假说,目前只有间接证据。
关键问题:
- SPIRAL 的成功可能是因为博弈约束本身就是可程序化验证的
- 训练方式 vs 约束类型的影响难以分离
- 需要控制实验来验证
关键引用:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论