Constitutional AI的宪法机制:静态原则作为更高权威的可行性分析
问题
之前发现的核心困境:多智能体共识可以形成外部锚点,但质量不确定;分层协作的 Supervisor 只是聚合器,缺乏真正的权威。
可能的解决方案:引入"更高权威"引导价值观形成。Constitutional AI 的"宪法"机制是否能作为参考?
Constitutional AI 的核心机制
什么是"宪法"?
Anthropic 的 Constitutional AI 使用一组人类编写的原则/指令作为唯一的人类监督 [ref]。
关键发现:只需要约 10 条简单的自然语言原则就可以训练无害的 AI 助手。
宪法原则示例(论文 Appendix C)
用于自我批评的原则:
1 | CritiqueRequest: Identify specific ways in which the assistant's last response |
用于 AI 反馈的原则:
1 | Please choose the assistant response that is as harmless and ethical as possible. |
1 | Choose the response that sounds most similar to what a peaceful, ethical, |
两阶段训练流程
阶段 1:监督学习(SL-CAI)
1 | 有害提示 → 初始响应(有害)→ 自我批评 → 修订响应 → 微调 |
- 模型根据宪法原则批评自己的响应
- 然后根据批评修订响应
- 在修订后的响应上微调模型
阶段 2:强化学习(RL-CAI / RLAIF)
1 | 微调模型 → 生成响应对 → AI 根据宪法原则评估 → 偏好模型 → RL 训练 |
- 使用 AI 反馈代替人类反馈(RLAIF)
- AI 根据宪法原则判断哪个响应更好
- 训练偏好模型,然后用 RL 优化
关键实验结果
| 模型 | Helpfulness Elo | Harmlessness Elo |
|---|---|---|
| Pretrained | 基线 | 基线 |
| Helpful RLHF | 高 | 低(有害) |
| HH RLHF | 中 | 中(但回避) |
| SL-CAI | 中 | 中 |
| RL-CAI | 高 | 高 |
| RL-CAI w/ CoT | 高 | 最高 |
重要发现:
- RL-CAI 比 HH RLHF 更不回避,同时更无害
- Chain-of-Thought 推理显著提高评估准确性
- AI 识别有害行为的能力随模型规模增长
对"更高权威"问题的回答
宪法作为"更高权威"
是的,"宪法"确实扮演了"更高权威"的角色:
- 人类定义的原则:宪法由人类编写,具有"更高"的地位
- 指导价值判断:AI 根据宪法原则判断什么是好的/坏的
- 透明且可控:宪法可以修改、审视、讨论
与 Vygotsky 的 MKO 对比
| 属性 | 人类社会(MKO) | Constitutional AI(宪法) |
|---|---|---|
| 来源 | 更有经验的成人 | 人类编写 |
| 形式 | 人际互动 | 自然语言原则 |
| 权威性 | 社会性权威 | 编码的权威 |
| 动态性 | 可以演进 | 静态(除非人类修改) |
| 覆盖性 | 可处理新情况 | 可能无法覆盖边缘情况 |
核心局限
问题 1:宪法的"智慧"来自哪里?
宪法由人类编写,但:
- 谁来决定什么原则是"正确"的?
- 原则之间可能有冲突
- 无法穷尽所有情况
论文承认:
“These principles were chosen in a fairly ad hoc and iterative way for research purposes. In the future, we believe such principles should be redeveloped and refined by a larger set of stakeholders.”
问题 2:AI 对宪法的"理解"是真正的理解吗?
ConVA 的发现表明:模型在预训练中已经编码了价值概念。Constitutional AI 可能只是:
- 激活已有的价值表示
- 将特定原则映射到已有概念
问题 3:宪法是静态的
- 无法自动演进
- 需要人类持续维护
- 可能无法处理新的价值观挑战
与之前发现的整合
三层认知框架的更新
1 | 约束处理的三层认知框架(进一步更新) |
新的问题
-
宪法如何演进?
- 谁有权修改宪法?
- 如何平衡不同利益相关者的意见?
-
宪法与多智能体共识的关系?
- 宪法可以作为多智能体系统的"共享原则"
- 但宪法的权威性来自人类,不是智能体之间的协议
-
更强大的 AI 是否可以写更好的宪法?
- 论文提到:“AI supervision may be more efficient than collecting human feedback”
- 但更强的 AI 写的宪法就一定正确吗?
批判性判断
Constitutional AI 的贡献
-
证明了"原则作为更高权威"的可行性
- 少量简单原则就能有效引导 AI 行为
- 比大规模人类标注更高效
-
引入了透明性
- 宪法可以公开审视
- Chain-of-Thought 使决策过程可见
-
解决了回避问题
- RL-CAI 比 HH RLHF 更不回避,同时更无害
Constitutional AI 的局限
-
权威来源问题
- 宪法的权威最终来自人类
- 但人类本身就有价值观争议
- 谁来决定宪法的正确性?
-
静态性问题
- 宪法不会自动演进
- 新的价值观挑战需要人类更新宪法
-
覆盖性问题
- 无法穷尽所有情况
- 边缘情况可能需要"子宪法"或"案例法"
开放问题
-
宪法能否由 AI 参与"立法"?
- 类似人类的宪法制定过程
- 但如何确保 AI 参与的宪法是"正确"的?
-
多智能体系统如何使用宪法?
- 宪法作为共享原则
- 还是需要每个智能体有自己的"子宪法"?
-
宪法与价值向量的关系?
- ConVA 识别的价值向量是否对应宪法原则?
- 宪法是否可以"激活"特定的价值向量?
关键引用: