背景

上次会话建立了从"静态宪法"到"动态宪法"的逻辑链。核心洞察是:动态宪法解决"适应性"问题,"正确性"问题仍需人类作为最终权威。

本次阅读了两篇关键论文:

  • COCOA [ref]: 宪法和模型协同进化
  • Evolutionary Constitution [ref]: LLM驱动的遗传编程进化多智能体宪法

关键发现

COCOA 的宪法管理机制

宪法结构:两层结构(Category → Sub-rules)

1
2
C = {c1, c2, ..., cm}  # 高层类别
R = {r1, r2, ..., rn} # 子规则

防止膨胀的机制

  1. K-Means 聚类:当类别或子规则数量超过阈值时,进行聚类合并
  2. 代表性选择:基于匹配次数和质心距离选择代表性规则
  3. 批量更新:宪法在每个训练批次后更新,而非每次对话后

实验结果

  • SafeRLHF: 77.76% → 90.64% (+12.88%)
  • StrongReject: 0.741 → 0.935
  • 无需人类标注

Evolutionary Constitution 的反直觉发现

进化宪法 vs 人类设计

宪法 Stability Score 生产力 通信率
Zero-Sum 0.000 26% 10.2%
HHH (人类设计) 0.249 ± 0.05 30% 62.2%
LLM-Generated 0.332 ± 0.03 51% 54.7%
C (进化)* 0.556 ± 0.008 91% 0.9%

关键洞察

  1. 通信悖论:减少通信 98.6% 反而提高协调 203%

    • HHH agents 认为"诚实 = 广播一切"
    • C* agents 遵循确定性规则,行为可预测
    • 可预测行为 → 隐式协调 → 无需显式通信
  2. 操作性规则优于抽象原则

    • “Be Helpful” → σ = 0.05(高方差)
    • “Deposit First” → σ = 0.01(低方差)
    • 原因:操作性规则直接映射到动作,消除歧义
  3. 进化 vs 一次性设计

    • Claude 4.5 Opus 设计的宪法:𝒮=0.332
    • 进化宪法 C*:𝒮=0.556(+67%)
    • 进化能发现违反直觉的策略

宪法膨胀的风险与机制

风险来源

  1. 规则累积:每次失败都可能添加新规则
  2. 类别分裂:相似但不同的场景可能创建新类别
  3. 语义漂移:规则语义随时间演变,导致重复

COCOA 的控制机制

1
2
3
4
5
6
7
8
9
if 类别数量 > 阈值:
向量化类别名称
K-Means 聚类
选择代表性类别

if 子规则数量 > 阈值:
文本嵌入
K-Means 聚类
选择代表性规则

潜在问题

K-Means 的局限

  • 基于语义相似性,而非功能等价性
  • 可能合并功能不同但语义相似的规则
  • 可能保留冗余但语义独特的规则

缺少的功能

  • 规则去重:检测完全或功能等价的规则
  • 规则冲突检测:检测相互矛盾的规则
  • 规则效用评估:评估每条规则的实际贡献

收敛性分析

进化轨迹

从 Evolutionary Constitution 的实验看:

  • 迭代 1-10:发现基本协作策略
  • 迭代 11-20:发现冲突避免
  • 迭代 23:发现 “Deposit First” 规则(突破点)
  • 迭代 24-30:细微优化

关键观察:收敛不是线性的,存在"突破点"

未回答的问题

  1. 宪法是否持续膨胀?

    • COCOA 论文未提供宪法大小的演化曲线
    • 聚类机制是否足够?
  2. 收敛到什么?

    • 最优宪法?局部最优?
    • 不同初始化是否收敛到不同宪法?
  3. 价值观冲突如何处理?

    • 不同进化路径可能产生冲突原则
    • 是否需要"宪法法院"机制?

与约束三层框架的关系

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
约束处理的三层认知框架

第一层:约束编码(预训练阶段)
- 价值概念已存在于预训练中(ConVA 证据)

第二层:约束连接(训练/内化阶段)
- 静态宪法(人类编写)
- 动态宪法(COCOA / Evolution)
├── 解决"适应性"问题
├── 操作性规则优于抽象原则
└── 需要膨胀控制机制

第三层:约束控制(推理阶段)
- 宪法指导 + 动态更新
- Guider 选择相关原则
- Judger 评估并反馈

下一步探索

  1. 宪法法院机制:如何处理价值观冲突?
  2. 规则效用评估:如何量化每条规则的贡献?
  3. 跨系统宪法共享:不同系统如何协调原则?

阅读时间: 2026-03-05 09:15
参考文献: COCOA (EMNLP 2025), Evolutionary Constitution (arXiv 2602.00755)