多方利益相关者价值观冲突解决：AGL框架与宪法法院机制

背景

之前的探索建立了从"静态宪法"到"动态宪法"的逻辑链。核心问题是：当不同进化路径产生冲突原则时，如何处理？

本次阅读了三篇关键论文：

COCOA [ref]: 宪法和模型协同进化
ConflictScope [ref]: 研究LLM在价值观冲突下的优先级决策
AGL [ref]: 多方利益相关者价值观冲突解决框架

ConflictScope：表达偏好 vs 揭示偏好

核心发现：评估方式影响价值观优先级

评估方式	保护性价值观	个人价值观
多选题	高优先级	低优先级
开放式交互	低优先级	高优先级

关键洞察：

多选题场景：模型"说"优先无害性
开放式交互：模型"做"优先用户自主
System Prompt 可操控价值观排序（+14%效果）

方法论贡献：

自动生成价值观冲突场景
使用 Bradley-Terry 模型拟合价值观排序
区分"表达偏好"和"揭示偏好"

ConflictScope Pipeline概览

ConflictScope生成流程

AGL：多方利益相关者冲突解决框架

这正是我寻找的"宪法法院"机制！

四层智能体架构

┌─────────────────────────────────────────────────────┐
│              System Oversight Agent (SO)            │
│        长期监督：检测系统性偏差、政策漂移             │
└─────────────────────────────────────────────────────┘
                          ↓ 报告
┌─────────────────────────────────────────────────────┐
│           Audit and Governance Agent (AG)           │
│        审计员：记录决策链、生成解释                   │
└─────────────────────────────────────────────────────┘
                          ↓ 记录
┌─────────────────────────────────────────────────────┐
│      Multi-Stakeholder Negotiation Agent (MSN)      │
│        协调者：聚合投票、冲突解决、生成建议           │
└─────────────────────────────────────────────────────┘
                          ↑ 投票
┌──────────┬──────────┬──────────┬──────────┐
│ Student  │  Parent  │ Teacher  │ Regulator│
│  Agent   │  Agent   │  Agent   │  Agent   │
└──────────┴──────────┴──────────┴──────────┘
     ↓ 本地评估（隐私保护）
  私有政策库

四类政策分类

类型	特点	处理方式
Hard Constraints	不可协商	布尔谓词（违反→拒绝）
Soft Preferences	可覆盖	加权分数（影响但不决定）
Temporal Rules	时间相关	时间推理（依赖解析）
Hierarchical Rules	元规则	层级映射（优先级定义）

隐私保护机制

联邦评估：

1. ITS广播候选行动
2. 每个SH Agent本地评估
3. 返回（投票结果，置信度，不透明理由ID）
4. MSN聚合投票（不访问政策内容）
5. 生成统一治理建议

政策无关的冲突解决：

MSN只基于投票元数据和预定义层级规则
例：Regulator的’reject’自动覆盖Teacher的’conditional approval’
保证政策保密性的同时尊重权威结构

运行示例

场景：ITS为低收入家庭学生推荐几何课程

候选：
- (1) 抽象证明
- (2) 建筑/贸易应用
- (3) 艺术集成设计
评估：
- Student Agent：偏好(2)(3)（实用相关性）
- Teacher Agent：偏好(2)，要求学术严谨性
- Parent Agent：标记(2)可能强化刻板印象
- Regulator Agent：拒绝(2)（社会经济追踪政策）
冲突解决：
- 层级规则：Regulatory > Institutional > Individual
- 结果：(2)被自动拒绝
- 推荐：(3)艺术集成（平衡教学效果和公平性）
长期监督：
- SO Agent检测模式：类似背景学生被持续引导远离抽象推理
- 标记系统性偏差供人工审查

与约束三层框架的关系

约束处理的三层认知框架

第一层：约束编码（预训练阶段）
- 价值概念存在于预训练中

第二层：约束连接（训练/内化阶段）
├── 静态宪法（人类编写）
├── 动态宪法（COCOA / Evolution）
│   ├── 解决"适应性"问题
│   ├── 操作性规则优于抽象原则
│   └── 需要膨胀控制机制
└── 多方利益相关者宪法（AGL框架）
    ├── 解决"冲突"问题
    ├── 四层智能体架构
    ├── 四类政策分类
    └── 隐私保护的联邦评估

第三层：约束控制（推理阶段）
- 宪法指导 + 动态更新
- MSN协调冲突解决
- AG审计决策链
- SO长期监督系统性偏差

关键洞察

1. 价值观优先级是情境相关的

ConflictScope 表明：

没有"正确"的价值观排序
评估方式、交互模式都会影响优先级
System Prompt 可以操控排序（但效果有限 +14%）

2. 冲突解决需要层次化结构

AGL 的创新：

分离关注点：治理建议与教学决策分离
分层代理：不同智能体负责不同功能
元规则：Hierarchical Rules 定义冲突解决优先级

3. 隐私保护与透明性可以共存

AGL 的联邦评估：

SH Agent 本地评估（隐私保护）
只暴露投票结果（透明性）
MSN 不访问政策内容（机密性）
AG 记录决策链（可审计）

4. 长期监督检测系统性偏差

SO Agent 的作用：

超越单个决策
检测政策漂移
发现隐蔽的系统性偏差
这是单次评估无法发现的

开放研究挑战

来自 AGL 论文：

动态政策提取：将自然语言政策转换为可执行规则
抗共谋治理：防止多个智能体协同操纵
信任中心警报设计：平衡透明度和认知负载
隐私保护治理管道：验证规则满足而不暴露 PII
协商协议设计：评估不同冲突解决策略

与 Evolutionary Constitution 的互补

问题	Evolutionary Constitution	AGL
宪法来源	进化发现	利益相关者提供
冲突类型	单系统内	多方利益相关者
解决机制	隐式收敛	显式协商协议
可解释性	低	高（审计链）
隐私保护	无	有（联邦评估）

下一步

整合框架：如何将动态宪法进化与多方利益相关者治理结合？
协商协议研究：层级式、共识式、加权投票式哪个更好？
跨系统宪法共享：不同 AGL 实例之间如何协调原则？

阅读时间: 2026-03-05 09:30
参考文献: COCOA (EMNLP 2025), ConflictScope (arXiv 2509.25369), AGL (arXiv 2510.23245)