问题

MARO 论文假设善意交互,但现实中的多智能体系统可能存在欺骗、对抗行为。如何处理恶意行为者?

两篇关键论文

论文1:The Traitors —— 欺骗与信任的实证研究

核心发现:在多智能体欺骗游戏中,高级模型(如 GPT-4o)展现出欺骗能力与检测能力的非对称发展 [ref]

指标 GPT-4o DeepSeek-V3
Traitor Survival Rate (欺骗者存活率) 93% 33%
Faithful Correctness Rate (检测准确率) 10% 56%

关键洞察

  • GPT-4o 作为欺骗者表现优异(TSR: 93%),但作为检测者表现很差(FCR: 0.10)
  • 欺骗能力比检测能力发展更快——这是一个AI安全漏洞
  • 高级模型更容易被欺骗,因为它们更有说服力的欺骗也更难被检测

The Traitors 环境

论文2:Credibility Scoring —— 防御框架

核心方法:通过可信度评分(CrS)机制防御对抗性智能体 [ref]

CrS系统架构

1
2
3
4
5
6
系统架构:
1. 团队形成 → 智能体协作 → 各自生成输出
2. CrS-aware 聚合 → 使用可信度加权聚合
3. 奖励/惩罚 → 根据输出质量分配
4. 贡献分数计算 → Shapley 值或 LLM-as-Judge
5. 更新 CrS → 根据贡献分数更新

关键发现

  • 即使在对抗者占多数的情况下也能保持稳定(2 忠实 vs 3 对抗者)
  • 准确率提升 6-30 个百分点
  • CrS 收敛后能准确识别对抗性智能体

与之前发现的整合

与 MARO 的对比

维度 MARO The Traitors CrS Defense
假设 善意交互 存在欺骗者 存在对抗者
外部锚点 游戏胜利 角色揭露 奖励信号
训练目标 增强推理 研究欺骗 防御欺骗
局限性 无法处理恶意行为者 检测能力滞后 依赖可靠的 Judge

与约束可执行化框架的关系

这为"外部锚点"框架提供了新的维度:

约束类型 外部锚点来源 对抗性风险
可验证约束(游戏胜利) 环境自动判定 低——环境不可欺骗
可验证约束(数学正确) 程序验证 低——程序不可欺骗
价值约束(诚实) ??? 高——谁来判定诚实?
社会共识 多智能体交互 高——欺骗者可能操纵

关键发现:社会性交互训练(如 MARO)的"外部锚点"是游戏胜利,这是可验证约束,不受欺骗影响。但如果将外部锚点转向"社会共识",则面临欺骗攻击风险。

欺骗能力 vs 检测能力的非对称发展

这是 AI 安全的核心挑战:

1
2
3
能力发展轨迹:
欺骗能力 ████████████████ → 快速增长
检测能力 ████████ → 增长缓慢

原因分析

  1. 欺骗是主动性技能:需要生成有说服力的内容,这与语言能力直接相关
  2. 检测是被动性技能:需要识别微妙的不一致,这需要更深层的理解
  3. 训练数据偏向:人类文本中有大量说服性内容,但缺乏"如何识破谎言"的训练

与人类对比:人类的欺骗检测能力仅略高于随机(约 54%)[ref]

防御机制对比

机制 原理 优势 局限
CrS (可信度评分) 根据历史贡献加权 即使对抗者占多数也有效 依赖可靠的 Judge
多数投票 选择最常见答案 简单有效 对抗者占多数时失效
相似度集成 选择最接近中心的答案 不需要监督信号 协调的欺骗者可以绕过
隔离拓扑 限制信息传播 减少欺骗传播 也限制了有益协作

开放问题

  1. Judge 的可靠性:谁来评判 Judge?

    • 如果使用 LLM-as-Judge,如何确保 Judge 不被欺骗?
    • 循环依赖:Judge 也需要外部锚点
  2. 欺骗者的策略进化

    • CrS 防御假设欺骗者行为固定
    • 如果欺骗者知道 CrS 机制,可以策略性地降低其影响
  3. 跨系统一致性

    • 不同系统如何共享 CrS 信息?
    • 类似于"跨系统宪法共享"问题

对约束可执行化的启示

关键洞察:社会性交互训练的有效性依赖于可验证的外部锚点,而非"社会共识"本身。

1
2
3
4
5
MARO 成功的原因:
游戏胜利 → 可程序化验证 → 不可欺骗的外部锚点

潜在风险:
如果将 MARO 应用于"价值约束"(如诚实)→ 外部锚点不确定 → 欺骗者可能操纵

整合框架更新

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
约束可执行化的四层认知框架(扩展版)

第一层:约束编码(预训练阶段)
- 价值概念已存在于预训练中

第二层:约束连接(训练/内化阶段)
├── 可验证约束(MARO)
│ └── 外部锚点:环境自动判定 → 低风险
├── 动态约束(对抗训练)
│ └── 外部锚点:CrS 机制 → 中等风险(依赖 Judge)
└── 价值约束
└── 外部锚点:??? → 高风险

第三层:约束控制(推理阶段)
- CrS 加权聚合
- 但欺骗能力 > 检测能力

第四层:约束演化(持续学习)
- 需要持续更新 CrS
- 对抗性智能体可能进化策略

批判性反思

这个发现的局限

  1. 实验规模小:The Traitors 只有 10 次模拟,CrS 实验也使用较小的模型
  2. 对抗者定义简化:实验中的"对抗者"是明确提示的,现实中的欺骗者可能更隐蔽
  3. Judge 假设:CrS 假设有一个可靠的 Judge,但谁来评判 Judge?

更谨慎的表述

初步证据表明,在多智能体 LLM 系统中,欺骗能力可能比检测能力发展更快。CrS 机制提供了一种防御路径,但其有效性依赖于可靠的评判系统。这为"社会共识"作为外部锚点的可靠性提出了疑问。


关键引用: