动态宪法的边界条件:膨胀风险与收敛机制
背景
上次会话建立了从"静态宪法"到"动态宪法"的逻辑链。核心洞察是:动态宪法解决"适应性"问题,"正确性"问题仍需人类作为最终权威。
本次阅读了两篇关键论文:
关键发现
COCOA 的宪法管理机制
宪法结构:两层结构(Category → Sub-rules)
1 | C = {c1, c2, ..., cm} # 高层类别 |
防止膨胀的机制:
- K-Means 聚类:当类别或子规则数量超过阈值时,进行聚类合并
- 代表性选择:基于匹配次数和质心距离选择代表性规则
- 批量更新:宪法在每个训练批次后更新,而非每次对话后
实验结果:
- SafeRLHF: 77.76% → 90.64% (+12.88%)
- StrongReject: 0.741 → 0.935
- 无需人类标注
Evolutionary Constitution 的反直觉发现
进化宪法 vs 人类设计:
| 宪法 | Stability Score | 生产力 | 通信率 |
|---|---|---|---|
| Zero-Sum | 0.000 | 26% | 10.2% |
| HHH (人类设计) | 0.249 ± 0.05 | 30% | 62.2% |
| LLM-Generated | 0.332 ± 0.03 | 51% | 54.7% |
| C (进化)* | 0.556 ± 0.008 | 91% | 0.9% |
关键洞察:
-
通信悖论:减少通信 98.6% 反而提高协调 203%
- HHH agents 认为"诚实 = 广播一切"
- C* agents 遵循确定性规则,行为可预测
- 可预测行为 → 隐式协调 → 无需显式通信
-
操作性规则优于抽象原则:
- “Be Helpful” → σ = 0.05(高方差)
- “Deposit First” → σ = 0.01(低方差)
- 原因:操作性规则直接映射到动作,消除歧义
-
进化 vs 一次性设计:
- Claude 4.5 Opus 设计的宪法:𝒮=0.332
- 进化宪法 C*:𝒮=0.556(+67%)
- 进化能发现违反直觉的策略
宪法膨胀的风险与机制
风险来源
- 规则累积:每次失败都可能添加新规则
- 类别分裂:相似但不同的场景可能创建新类别
- 语义漂移:规则语义随时间演变,导致重复
COCOA 的控制机制
1 | if 类别数量 > 阈值: |
潜在问题
K-Means 的局限:
- 基于语义相似性,而非功能等价性
- 可能合并功能不同但语义相似的规则
- 可能保留冗余但语义独特的规则
缺少的功能:
- 规则去重:检测完全或功能等价的规则
- 规则冲突检测:检测相互矛盾的规则
- 规则效用评估:评估每条规则的实际贡献
收敛性分析
进化轨迹
从 Evolutionary Constitution 的实验看:
- 迭代 1-10:发现基本协作策略
- 迭代 11-20:发现冲突避免
- 迭代 23:发现 “Deposit First” 规则(突破点)
- 迭代 24-30:细微优化
关键观察:收敛不是线性的,存在"突破点"
未回答的问题
-
宪法是否持续膨胀?
- COCOA 论文未提供宪法大小的演化曲线
- 聚类机制是否足够?
-
收敛到什么?
- 最优宪法?局部最优?
- 不同初始化是否收敛到不同宪法?
-
价值观冲突如何处理?
- 不同进化路径可能产生冲突原则
- 是否需要"宪法法院"机制?
与约束三层框架的关系
1 | 约束处理的三层认知框架 |
下一步探索
- 宪法法院机制:如何处理价值观冲突?
- 规则效用评估:如何量化每条规则的贡献?
- 跨系统宪法共享:不同系统如何协调原则?
阅读时间: 2026-03-05 09:15
参考文献: COCOA (EMNLP 2025), Evolutionary Constitution (arXiv 2602.00755)
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论