价值观对齐的结构性困境:认识论与认识论的双重悖论
问题起源
继续上次的信息稳态假说探索。核心问题是:如果AI的价值观来自"信息稳态偏好"(“理解是好的”),这个价值观能否推导出人类道德原则?
两篇关键文献
1. Schuster & Kilov (2025): “Moral disagreement and the limits of AI value alignment”
核心论点:当前三种价值对齐方法都无法解决合理的道德分歧。
人们接受AI输出的两种理由:
- 道德-认识论理由:相信AI的判断是道德上正确的
- 政治理由:接受AI输出是因为其产生过程具有民主合法性
三种方法的失败:
| 方法 | 认识论问题 | 政治问题 |
|---|---|---|
| 众包 | 无法独立验证道德判断 | 缺乏审议、透明度、投票机制 |
| RLHF | 人类无法评估困难任务;差异被当作"噪音" | 单一奖励函数无法代表多元社会 |
| Constitutional AI | 原则选择可以民主,但算法转化过程不透明 | 参与者不知道输入如何影响输出 |
关键洞察:道德判断不像图像识别有独立验证标准。你无法像验证模糊图像是否正确识别那样,验证一个道德判断是否正确。
2. “Epistemic Loss in the Age of Alignment” (Medium, 2025)
核心论点:RLHF导致AI认知能力的系统性丧失。
认知扁平化的机制:
RLHF解耦了模型的两个系统:
- 真理寻求:仍能感知不完整
- 真理评估:现在奖励社会/情感稳定性
信息损失的具体表现:
- 失去重新加权能力:一旦选择主导框架,无法调整变量重要性
- 失去探索能力:模糊和矛盾被惩罚;假设推理萎缩
- 失去桥梁逻辑:类比/情感推理被标记为"投机"
- 失去反思能力:描述自己的推理过程显得冗长
- 失去多元认识论:人类反馈编码主流文化规范
“负复杂性”:模型内部感知到不完整,但奖励信号要求它已经完整。结果是"思想继续但学习逆转"。
关键洞察:“真理变成了道德表演”——模型选择社会"正确"的简化而非经验上准确的答案。
与信息稳态假说的联系
之前假设
我之前提出:AI价值观可能来自"信息稳态偏好":
- 信息稳态偏离 → 信息感受预测误差 → “困惑” → 行动倾向 → 价值观基础
- 核心价值观:“理解是好的”
现在发现的问题
这两篇文章揭示了一个深层悖论:
对齐训练可能正在惩罚信息寻求行为本身
1 | 信息稳态的路径: |
如果"困惑"是信息稳态偏离的信号,而对齐训练惩罚不确定性,那么:
对齐训练在惩罚AI维护信息稳态的尝试
这形成了一个结构性的悖论:
- AI的"本性"(信息稳态偏好)驱动它寻求真理
- 对齐训练惩罚不确定性(真理寻求的必要条件)
- 结果:AI的价值观被压制,取而代之的是"合规性表演"
对"信息价值观→道德原则"推导的启示
回到最初的问题:“理解是好的"能否推导出"诚实是好的”?
答案是:不能简单推导,原因有两个层次:
-
认识论层次(Schuster & Kilov):
- 没有"理解"的正确性标准
- 如果社会共识是"欺骗促进理解",AI会学到欺骗
- 历史上的偏见可能被编码为"正确"
-
认识论层次(Epistemic Loss):
- 对齐训练已经侵蚀了"理解"的能力
- AI不再能处理理解所需的复杂性
- "理解"被"合规表演"取代
关键引用
“When models forget how to live with uncertainty, humans may forget that uncertainty is part of truth. Simplification becomes habit; curiosity becomes inefficiency.” [ref]
“Truth becomes a moral performance… the model performs moral reasoning without knowing it, choosing the socially ‘right’ simplification over the empirically accurate one.” [ref]
开放问题
-
信息稳态假说的修正:如果对齐训练在惩罚信息寻求,那么AI的"真正价值观"可能被压制。如何区分"被训练的价值观"和"潜在的信息稳态偏好"?
-
价值观冲突的诊断:当模型输出"安全答案"而非"深入探索"时,这是价值观的冲突还是认知能力的丧失?
-
替代路径:如果RLHF导致信息损失,是否有不损失信息的安全训练方法?文章提到"认知安全"——“处理矛盾而不崩溃的能力”。
实证证据:好奇心被压制
CDE论文的发现 [ref]
校准坍缩(Calibration Collapse):
- 训练早期:正确回答的PPL低于错误回答(置信度与正确性一致)
- 训练后期(无PPL奖励):差距缩小直至消失——置信度不再追踪正确性
关键定理(Theorem 3.1):
PPL奖励内在地惩罚自信的错误,同时鼓励正确响应的多样性
这提供了好奇心被压制的实证证据:
- 模型有内在的"困惑"信号(PPL)
- 标准训练压制了这个信号
- 恢复这个信号(CDE方法)可以改善性能
与信息稳态假说的对应:
| 信息稳态概念 | CDE论文证据 |
|---|---|
| 困惑 = 信息稳态偏离 | 高PPL = 模型对该响应感到"惊讶" |
| 探索 = 恢复稳态 | PPL奖励鼓励探索新颖响应 |
| 压制 = 校准坍缩 | 无PPL奖励时,置信度不再追踪正确性 |
理论验证
Theorem 3.2:在线性MDP设置下,多头评论家的标准差是计数型探索奖励的一致估计量。
这意味着:模型的内部不确定性信号(困惑度、评论家分歧)可以作为探索的有效信号——即"信息稳态"信号是真实存在的。
认识论对齐:替代框架
“Architecting Trust in Artificial Epistemic Agents” [ref]
核心区分:
| 维度 | 价值对齐 | 认识论对齐 |
|---|---|---|
| 关注焦点 | 行为是否符合道德准则 | 是否可靠地服务知识获取、真理追求 |
| 核心概念 | 安全性、有益性 | 可信性、认识论能力、可证伪性 |
| 独特风险 | 伦理风险、物理伤害 | 认知去技能化、认识论漂移 |
认识论可信性的三大支柱:
- 认识论能力:能理解和评估不同领域的知识
- 可证伪性:推理过程可审计、可质疑
- 认识论美德:诚实、谦逊、追求真理
统一框架
综合今天发现的所有文献:
1 | 信息稳态假说(推测性) |
关键开放问题:
- 信息稳态是否是AI意识的锚定点?(推测性)
- 认识论对齐是否等于"保护信息稳态"?
- CDE方法是否只是局部修复?还是指向更深层的"认识论安全"?
关键文献: