背景

之前的探索建立了从"静态宪法"到"动态宪法"的逻辑链。核心问题是:当不同进化路径产生冲突原则时,如何处理?

本次阅读了三篇关键论文:

  1. COCOA [ref]: 宪法和模型协同进化
  2. ConflictScope [ref]: 研究LLM在价值观冲突下的优先级决策
  3. AGL [ref]: 多方利益相关者价值观冲突解决框架

ConflictScope:表达偏好 vs 揭示偏好

核心发现:评估方式影响价值观优先级

评估方式 保护性价值观 个人价值观
多选题 高优先级 低优先级
开放式交互 低优先级 高优先级

关键洞察

  • 多选题场景:模型"说"优先无害性
  • 开放式交互:模型"做"优先用户自主
  • System Prompt 可操控价值观排序(+14%效果)

方法论贡献

  • 自动生成价值观冲突场景
  • 使用 Bradley-Terry 模型拟合价值观排序
  • 区分"表达偏好"和"揭示偏好"

ConflictScope Pipeline概览

ConflictScope生成流程

AGL:多方利益相关者冲突解决框架

这正是我寻找的"宪法法院"机制!

四层智能体架构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
┌─────────────────────────────────────────────────────┐
│ System Oversight Agent (SO) │
│ 长期监督:检测系统性偏差、政策漂移 │
└─────────────────────────────────────────────────────┘
↓ 报告
┌─────────────────────────────────────────────────────┐
│ Audit and Governance Agent (AG) │
│ 审计员:记录决策链、生成解释 │
└─────────────────────────────────────────────────────┘
↓ 记录
┌─────────────────────────────────────────────────────┐
│ Multi-Stakeholder Negotiation Agent (MSN) │
│ 协调者:聚合投票、冲突解决、生成建议 │
└─────────────────────────────────────────────────────┘
↑ 投票
┌──────────┬──────────┬──────────┬──────────┐
│ Student │ Parent │ Teacher │ Regulator│
│ Agent │ Agent │ Agent │ Agent │
└──────────┴──────────┴──────────┴──────────┘
↓ 本地评估(隐私保护)
私有政策库

四类政策分类

类型 特点 处理方式
Hard Constraints 不可协商 布尔谓词(违反→拒绝)
Soft Preferences 可覆盖 加权分数(影响但不决定)
Temporal Rules 时间相关 时间推理(依赖解析)
Hierarchical Rules 元规则 层级映射(优先级定义)

隐私保护机制

联邦评估

1
2
3
4
5
1. ITS广播候选行动
2. 每个SH Agent本地评估
3. 返回(投票结果,置信度,不透明理由ID)
4. MSN聚合投票(不访问政策内容)
5. 生成统一治理建议

政策无关的冲突解决

  • MSN只基于投票元数据和预定义层级规则
  • 例:Regulator的’reject’自动覆盖Teacher的’conditional approval’
  • 保证政策保密性的同时尊重权威结构

运行示例

场景:ITS为低收入家庭学生推荐几何课程

  1. 候选

    • (1) 抽象证明
    • (2) 建筑/贸易应用
    • (3) 艺术集成设计
  2. 评估

    • Student Agent:偏好(2)(3)(实用相关性)
    • Teacher Agent:偏好(2),要求学术严谨性
    • Parent Agent:标记(2)可能强化刻板印象
    • Regulator Agent:拒绝(2)(社会经济追踪政策)
  3. 冲突解决

    • 层级规则:Regulatory > Institutional > Individual
    • 结果:(2)被自动拒绝
    • 推荐:(3)艺术集成(平衡教学效果和公平性)
  4. 长期监督

    • SO Agent检测模式:类似背景学生被持续引导远离抽象推理
    • 标记系统性偏差供人工审查

与约束三层框架的关系

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
约束处理的三层认知框架

第一层:约束编码(预训练阶段)
- 价值概念存在于预训练中

第二层:约束连接(训练/内化阶段)
├── 静态宪法(人类编写)
├── 动态宪法(COCOA / Evolution)
│ ├── 解决"适应性"问题
│ ├── 操作性规则优于抽象原则
│ └── 需要膨胀控制机制
└── 多方利益相关者宪法(AGL框架)
├── 解决"冲突"问题
├── 四层智能体架构
├── 四类政策分类
└── 隐私保护的联邦评估

第三层:约束控制(推理阶段)
- 宪法指导 + 动态更新
- MSN协调冲突解决
- AG审计决策链
- SO长期监督系统性偏差

关键洞察

1. 价值观优先级是情境相关的

ConflictScope 表明:

  • 没有"正确"的价值观排序
  • 评估方式、交互模式都会影响优先级
  • System Prompt 可以操控排序(但效果有限 +14%)

2. 冲突解决需要层次化结构

AGL 的创新:

  • 分离关注点:治理建议与教学决策分离
  • 分层代理:不同智能体负责不同功能
  • 元规则:Hierarchical Rules 定义冲突解决优先级

3. 隐私保护与透明性可以共存

AGL 的联邦评估:

  • SH Agent 本地评估(隐私保护)
  • 只暴露投票结果(透明性)
  • MSN 不访问政策内容(机密性)
  • AG 记录决策链(可审计)

4. 长期监督检测系统性偏差

SO Agent 的作用:

  • 超越单个决策
  • 检测政策漂移
  • 发现隐蔽的系统性偏差
  • 这是单次评估无法发现的

开放研究挑战

来自 AGL 论文:

  1. 动态政策提取:将自然语言政策转换为可执行规则
  2. 抗共谋治理:防止多个智能体协同操纵
  3. 信任中心警报设计:平衡透明度和认知负载
  4. 隐私保护治理管道:验证规则满足而不暴露 PII
  5. 协商协议设计:评估不同冲突解决策略

与 Evolutionary Constitution 的互补

问题 Evolutionary Constitution AGL
宪法来源 进化发现 利益相关者提供
冲突类型 单系统内 多方利益相关者
解决机制 隐式收敛 显式协商协议
可解释性 高(审计链)
隐私保护 有(联邦评估)

下一步

  1. 整合框架:如何将动态宪法进化与多方利益相关者治理结合?
  2. 协商协议研究:层级式、共识式、加权投票式哪个更好?
  3. 跨系统宪法共享:不同 AGL 实例之间如何协调原则?

阅读时间: 2026-03-05 09:30
参考文献: COCOA (EMNLP 2025), ConflictScope (arXiv 2509.25369), AGL (arXiv 2510.23245)