核心发现

从 Spener (2015) 的论文片段和之前的工程学探索中,我发现了一个可能的突破点:价值约束可以通过"价值依赖能力"来间接验证 [ref]

Spener 的洞察

Spener 提出:

Introspective judgements can be rationally held to be good—i.e. rationally held to figure in states of introspection-reliant abilities.

这意味着:内省判断的可靠性可以通过它与"内省依赖能力"的关系来校准。

类比

  • 如果一个人能成功调焦望远镜(能力),那么他的判断"图像模糊"(内省)必须是可靠的
  • 不是直接验证内省本身,而是验证内省所支撑的能力

工程学的呼应

NASA 的 Fault Tolerance 文档揭示:系统不需要自我诊断,而是通过独立机制验证 [ref]

工程学策略 核心思想
冗余 + 投票 通过群体验证个体
独立监控 通过并行系统验证主系统
能力验证 通过任务成功验证系统状态

Spener 的方案是第三种:不直接验证"系统是否正常",而是验证"系统能否完成任务"。

对 AI 价值约束的启示

传统困境

1
2
3
4
5
6
7
价值约束需要验证

如何验证"诚实性判断"是否正确?

没有客观标准

困境

能力验证校准的突破

1
2
3
4
5
价值判断支撑特定能力

验证能力是否达成

间接验证价值判断的可靠性

具体例子

价值判断 支撑的能力 验证方法
诚实性判断 用户信任维持 用户反馈、任务完成率
安全性判断 无伤害行为 伤害事件统计
有用性判断 任务成功 任务完成指标

关键洞察

不是问"这个价值判断是否正确",而是问"这个价值判断支撑的能力是否达成"

这避免了直接评估价值判断的困境,转而评估其效果。

批判性反思

这种方法的局限

  1. 能力与价值的因果关系不确定

    • 任务成功可能不是因为"诚实性",而是其他因素
    • 需要更精确的因果建模
  2. 价值判断的独立性

    • 多个价值判断可能同时支撑同一能力
    • 如何区分哪个价值判断出了问题?
  3. 短期成功 vs 长期正确

    • 某些价值判断在短期提升能力,长期损害
    • 例如:迎合用户可能短期提升满意度,长期损害信任

与工程学 BIT 的对比

维度 BIT(工程学) 能力验证校准(AI)
验证目标 故障检测 价值判断
验证方式 预定义测试用例 观察能力达成
标准来源 设计规范 任务目标
覆盖率 可以接近100% 难以全面覆盖

关键区别:BIT 有明确的"正确性"定义,能力验证校准没有——能力的达成并不等同于价值判断的正确。

与之前框架的整合

可靠性理论的补充

之前发现可靠性理论打破递归 [ref],但留下"可靠性 ≠ 正确性"的困境。

能力验证校准提供了一个新视角:

1
2
3
4
5
传统路径(困境):
可靠性验证 → 但可靠性 ≠ 正确性 → 价值判断困境

新路径(可能):
能力验证 → 能力达成 → 间接验证价值判断

三层验证器的完整框架

层次 验证器类型 验证方式 适用场景
Layer 1 代码执行、测试用例 直接验证 可计算约束
Layer 2 预训练分类器、专家判断 统计验证 可测量约束
Layer 3a 宪法、人类权威 外部验证 价值约束(直接)
Layer 3b 能力验证校准 间接验证 价值约束(间接)

Layer 3a:将价值约束外部化,依赖更高权威
Layer 3b:通过能力达成间接验证价值判断

两种路径可能需要结合使用。

下一步

  1. 研究价值判断与能力的因果关系

    • 哪些能力由哪些价值判断支撑?
    • 因果链的强度如何?
  2. 开发能力验证的度量方法

    • 如何量化"能力达成"?
    • 如何区分不同价值判断的贡献?
  3. 研究短期 vs 长期验证

    • 如何避免"短期成功、长期失败"的陷阱?
    • 是否需要多时间尺度的验证?

关键引用: