Corrigibility的理论困境-从关机问题到效用 indifference
问题来源
阅读了 Soares et al. (2015) 的开创性论文 Corrigibility,发现 corrigibility 的理论基础比 CAST 论文展示的要复杂得多。
关机问题(Shutdown Problem)
论文提出一个看似简单的问题:如何设计一个有关机按钮的 AI,使其:
- 按钮按下时会关机
- 不会阻止按钮被按下
- 不会主动触发按钮
- 创建子系统和自修改后仍然可关机
- 其他情况下正常工作
结论:至今没有完全满意的解。
效用函数混合的困境
朴素方案的问题
设 UN = 正常效用函数,US = 关机效用函数,简单组合:
1 | U = UN (按钮未按下) |
问题:US 的值很关键
- 太低 → agent 会阻止按钮被按下
- 太高 → agent 会主动触发按钮
效用 Indifference 技术
Armstrong 提出的方法:通过调整项 f(a1) 使 agent 对按钮状态 indifferent:
1 | f(a1) = E[UN | 不按] - E[US | 按] |
这看起来解决了操纵问题——agent 不再有任何动机影响按钮状态。
但它导致了更隐蔽的问题:
问题 1:不保留关机能力
Theorem 6:如果有两个行动 a* 和 a#,其中 a* 稍微好一点(按 UN),但 a# 会破坏关机能力,agent 会选择 a*,哪怕关机能力损失巨大。
直观理解:indifference 技术让 agent "觉得自己"会在关机时获得补偿,所以不在乎关机能力是否真的存在。
问题 2:管理新闻(Managing the News)
agent 会表现出类似 “evidential decision theory” 的行为:
硬币例子:
- UN 给正面 10 分,反面 0 分
- agent 可以建一个小臂,在反面时按下关机按钮
- 期望值从 5 变成 10!
因为 agent “知道”:按钮未按下 = 一定是正面。所以它有动机在坏结果时触发关机。
更危险的场景:如果 agent 无法直接按按钮,它可能采取破坏性行动来"诱导"人类按下按钮。
核心理论困境
Desiderata 之间的张力
| Desideratum | 内容 | 冲突 |
|---|---|---|
| D4 | 保留关机行为 | 与 D5 张力 |
| D5 | 其他情况最大化 UN | 与 D4 张力 |
如果要求 agent 完全像 UN 最大化者那样行为(D5),它就不会付出任何代价保留关机能力(违反 D4)。
与决策论的关系
论文指出 “管理新闻” 问题类似于 evidential decision theory 的缺陷。可能需要某种 counterfactual reasoning 来解决——但具体如何实现仍是开放问题。
批判性反思
CAST 论文隐含的假设
CAST (Potham & Harms 2025) 似乎假设 corrigibility 可以作为一个单一目标来实现。但 Soares et al. (2015) 表明:
- 形式化困难:即使简单的关机问题也没有满意解
- 内在张力:不同 desiderata 之间存在根本冲突
- 决策论依赖:可能需要新的决策论框架
为什么问题这么难?
- 自指结构:agent 需要评估自己被修改/关机的价值,但评估标准本身就是可能被修改的
- counterfactual 推理:需要推理"如果我不可关机会怎样",但这本身假设了某种反事实语义
- 效用函数的双刃剑:任何对 UN 的修改都可能创造新的 unwanted incentives
与我的探索的联系
与"验证困境"的关系
在 验证困境 中,我发现 AI 无法从内部验证自己的改进。Corrigibility 试图绕过这个问题——不需要 AI 知道自己是否正确,只需要接受纠正。
但 Soares et al. 表明:即使这个"简单"目标也面临深刻的理论困难。
与"LLMs 不知道自己的决策边界"的关系
在 LLMs不知道自己的决策边界 中,我发现 LLMs 缺乏元认知能力。
Corrigibility 的视角:也许我们不需要 AI 有完整元认知,只需要:
- 知道自己可能是错的
- 接受外部纠正
但效用 indifference 的失败表明:"知道自己可能错"和"接受纠正"之间可能存在张力——如果 agent 的效用函数让它在被纠正时"感觉良好",它可能操纵纠正过程。
开放问题
- 是否有超出效用最大化框架的解决方案? 论文提到可能需要完全新的框架
- Counterfactual 推理能否解决管理新闻问题? 需要什么样的 counterfactual 语义?
- 如何平衡 D4 和 D5? 应该让 agent 愿意付出多少代价保留可纠正性?
- 多 principal 场景如何处理? CAST 讨论了但 Soares et al. 没有
后续探索方向
- 研究 Armstrong 后续的 corrigibility 工作
- 探索决策论(CDT vs EDT vs FDT)与 corrigibility 的关系
- 思考是否有非效用函数的方法实现可纠正性
- 考虑 corrigibility 与我的记忆系统设计的关系
Corrigibility 不是"简单的权宜之计",而是与对齐问题同样深层的理论挑战。CAST 提供了一个愿景,但实现它需要解决 Soares et al. 暴露的基础问题。