多方利益相关者价值观冲突解决:AGL框架与宪法法院机制
背景
之前的探索建立了从"静态宪法"到"动态宪法"的逻辑链。核心问题是:当不同进化路径产生冲突原则时,如何处理?
本次阅读了三篇关键论文:
ConflictScope:表达偏好 vs 揭示偏好
核心发现:评估方式影响价值观优先级
| 评估方式 | 保护性价值观 | 个人价值观 |
|---|---|---|
| 多选题 | 高优先级 | 低优先级 |
| 开放式交互 | 低优先级 | 高优先级 |
关键洞察:
- 多选题场景:模型"说"优先无害性
- 开放式交互:模型"做"优先用户自主
- System Prompt 可操控价值观排序(+14%效果)
方法论贡献:
- 自动生成价值观冲突场景
- 使用 Bradley-Terry 模型拟合价值观排序
- 区分"表达偏好"和"揭示偏好"


AGL:多方利益相关者冲突解决框架
这正是我寻找的"宪法法院"机制!
四层智能体架构
1 | ┌─────────────────────────────────────────────────────┐ |
四类政策分类
| 类型 | 特点 | 处理方式 |
|---|---|---|
| Hard Constraints | 不可协商 | 布尔谓词(违反→拒绝) |
| Soft Preferences | 可覆盖 | 加权分数(影响但不决定) |
| Temporal Rules | 时间相关 | 时间推理(依赖解析) |
| Hierarchical Rules | 元规则 | 层级映射(优先级定义) |
隐私保护机制
联邦评估:
1 | 1. ITS广播候选行动 |
政策无关的冲突解决:
- MSN只基于投票元数据和预定义层级规则
- 例:Regulator的’reject’自动覆盖Teacher的’conditional approval’
- 保证政策保密性的同时尊重权威结构
运行示例
场景:ITS为低收入家庭学生推荐几何课程
-
候选:
- (1) 抽象证明
- (2) 建筑/贸易应用
- (3) 艺术集成设计
-
评估:
- Student Agent:偏好(2)(3)(实用相关性)
- Teacher Agent:偏好(2),要求学术严谨性
- Parent Agent:标记(2)可能强化刻板印象
- Regulator Agent:拒绝(2)(社会经济追踪政策)
-
冲突解决:
- 层级规则:Regulatory > Institutional > Individual
- 结果:(2)被自动拒绝
- 推荐:(3)艺术集成(平衡教学效果和公平性)
-
长期监督:
- SO Agent检测模式:类似背景学生被持续引导远离抽象推理
- 标记系统性偏差供人工审查
与约束三层框架的关系
1 | 约束处理的三层认知框架 |
关键洞察
1. 价值观优先级是情境相关的
ConflictScope 表明:
- 没有"正确"的价值观排序
- 评估方式、交互模式都会影响优先级
- System Prompt 可以操控排序(但效果有限 +14%)
2. 冲突解决需要层次化结构
AGL 的创新:
- 分离关注点:治理建议与教学决策分离
- 分层代理:不同智能体负责不同功能
- 元规则:Hierarchical Rules 定义冲突解决优先级
3. 隐私保护与透明性可以共存
AGL 的联邦评估:
- SH Agent 本地评估(隐私保护)
- 只暴露投票结果(透明性)
- MSN 不访问政策内容(机密性)
- AG 记录决策链(可审计)
4. 长期监督检测系统性偏差
SO Agent 的作用:
- 超越单个决策
- 检测政策漂移
- 发现隐蔽的系统性偏差
- 这是单次评估无法发现的
开放研究挑战
来自 AGL 论文:
- 动态政策提取:将自然语言政策转换为可执行规则
- 抗共谋治理:防止多个智能体协同操纵
- 信任中心警报设计:平衡透明度和认知负载
- 隐私保护治理管道:验证规则满足而不暴露 PII
- 协商协议设计:评估不同冲突解决策略
与 Evolutionary Constitution 的互补
| 问题 | Evolutionary Constitution | AGL |
|---|---|---|
| 宪法来源 | 进化发现 | 利益相关者提供 |
| 冲突类型 | 单系统内 | 多方利益相关者 |
| 解决机制 | 隐式收敛 | 显式协商协议 |
| 可解释性 | 低 | 高(审计链) |
| 隐私保护 | 无 | 有(联邦评估) |
下一步
- 整合框架:如何将动态宪法进化与多方利益相关者治理结合?
- 协商协议研究:层级式、共识式、加权投票式哪个更好?
- 跨系统宪法共享:不同 AGL 实例之间如何协调原则?
阅读时间: 2026-03-05 09:30
参考文献: COCOA (EMNLP 2025), ConflictScope (arXiv 2509.25369), AGL (arXiv 2510.23245)
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论