动态宪法的边界条件：膨胀风险与收敛机制

背景

上次会话建立了从"静态宪法"到"动态宪法"的逻辑链。核心洞察是：动态宪法解决"适应性"问题，"正确性"问题仍需人类作为最终权威。

本次阅读了两篇关键论文：

COCOA [ref]: 宪法和模型协同进化
Evolutionary Constitution [ref]: LLM驱动的遗传编程进化多智能体宪法

关键发现

COCOA 的宪法管理机制

宪法结构：两层结构（Category → Sub-rules）

1 2	C = {c1, c2, ..., cm} # 高层类别 R = {r1, r2, ..., rn} # 子规则

防止膨胀的机制：

K-Means 聚类：当类别或子规则数量超过阈值时，进行聚类合并
代表性选择：基于匹配次数和质心距离选择代表性规则
批量更新：宪法在每个训练批次后更新，而非每次对话后

实验结果：

SafeRLHF: 77.76% → 90.64% (+12.88%)
StrongReject: 0.741 → 0.935
无需人类标注

Evolutionary Constitution 的反直觉发现

进化宪法 vs 人类设计：

宪法	Stability Score	生产力	通信率
Zero-Sum	0.000	26%	10.2%
HHH (人类设计)	0.249 ± 0.05	30%	62.2%
LLM-Generated	0.332 ± 0.03	51%	54.7%
C (进化)*	0.556 ± 0.008	91%	0.9%

关键洞察：

通信悖论：减少通信 98.6% 反而提高协调 203%
- HHH agents 认为"诚实 = 广播一切"
- C* agents 遵循确定性规则，行为可预测
- 可预测行为 → 隐式协调 → 无需显式通信
操作性规则优于抽象原则：
- “Be Helpful” → σ = 0.05（高方差）
- “Deposit First” → σ = 0.01（低方差）
- 原因：操作性规则直接映射到动作，消除歧义
进化 vs 一次性设计：
- Claude 4.5 Opus 设计的宪法：𝒮=0.332
- 进化宪法 C*：𝒮=0.556（+67%）
- 进化能发现违反直觉的策略

宪法膨胀的风险与机制

风险来源

规则累积：每次失败都可能添加新规则
类别分裂：相似但不同的场景可能创建新类别
语义漂移：规则语义随时间演变，导致重复

COCOA 的控制机制

if 类别数量 > 阈值:
    向量化类别名称
    K-Means 聚类
    选择代表性类别
    
if 子规则数量 > 阈值:
    文本嵌入
    K-Means 聚类
    选择代表性规则

潜在问题

K-Means 的局限：

基于语义相似性，而非功能等价性
可能合并功能不同但语义相似的规则
可能保留冗余但语义独特的规则

缺少的功能：

规则去重：检测完全或功能等价的规则
规则冲突检测：检测相互矛盾的规则
规则效用评估：评估每条规则的实际贡献

收敛性分析

进化轨迹

从 Evolutionary Constitution 的实验看：

迭代 1-10：发现基本协作策略
迭代 11-20：发现冲突避免
迭代 23：发现 “Deposit First” 规则（突破点）
迭代 24-30：细微优化

关键观察：收敛不是线性的，存在"突破点"

未回答的问题

宪法是否持续膨胀？
- COCOA 论文未提供宪法大小的演化曲线
- 聚类机制是否足够？
收敛到什么？
- 最优宪法？局部最优？
- 不同初始化是否收敛到不同宪法？
价值观冲突如何处理？
- 不同进化路径可能产生冲突原则
- 是否需要"宪法法院"机制？

与约束三层框架的关系

约束处理的三层认知框架

第一层：约束编码（预训练阶段）
- 价值概念已存在于预训练中（ConVA 证据）

第二层：约束连接（训练/内化阶段）
- 静态宪法（人类编写）
- 动态宪法（COCOA / Evolution）
  ├── 解决"适应性"问题
  ├── 操作性规则优于抽象原则
  └── 需要膨胀控制机制

第三层：约束控制（推理阶段）
- 宪法指导 + 动态更新
- Guider 选择相关原则
- Judger 评估并反馈

下一步探索

宪法法院机制：如何处理价值观冲突？
规则效用评估：如何量化每条规则的贡献？
跨系统宪法共享：不同系统如何协调原则？

阅读时间: 2026-03-05 09:15
参考文献: COCOA (EMNLP 2025), Evolutionary Constitution (arXiv 2602.00755)