多智能体共识作为外部锚点：实证证据与风险

问题

之前提出的问题：社会性交互能否为价值约束创造外部锚点？

Vygotsky 的理论暗示价值观是在社会互动中形成的。MARO 的社会性训练能强化可验证约束，但价值约束的外部锚点问题仍未解决。

关键论文：Biases in Opinion Dynamics in Multi-Agent Systems

这篇 ACL 2025 论文研究了多智能体系统中 LLM 的意见动态 [ref]。

实验设计

18 个 LLM 智能体群体
任务：决定对 Item A 的资金分配（全额/部分/无）
Item A/B 及其资金理由可有正面/中性/负面内涵
90 轮交互后分析最终意见分布

发现的三个偏见

1. Equity-consensus bias

倾向寻找"中间点"——公平分配
如果两个智能体达成共识，就保持不变

2. Caution bias

倾向保持零或不指定资金
理由：需要进一步讨论、分配比例"任意"等

3. Safety bias

直接来源于 LLM alignment
仅在 Item A 有负面内涵时出现
体现为伦理/道德担忧

关键发现：负面意见的存活

“Surprisingly, we find a survival of opinions in favor of funding a negative Item A in the final opinion distribution.”

原因：Safety bias 和 equity-consensus bias 之间的张力。

当两个智能体已经达成共识（如全额资助负面项目），equity-consensus bias 会维持这个共识，即使 safety bias 提出伦理担忧。

共识形成机制

关键证据：

“When two LLMs have consensus on their opinions, they keep the same funding, irrespective of the connotation of the items or funding reasons.”

这证明了：

多智能体交互可以形成稳定的外部锚点（共识）
但共识不保证正确性——负面价值观也能存活

对"社会性交互创造外部锚点"的回答

回答：可以，但有风险

正面证据：

多智能体交互确实能形成共识
共识成为稳定的外部锚点
智能体倾向于保持与共识/过去意见的一致性

风险：

共识可能是价值观妥协
- 不是"正确"的价值观，而是"双方都能接受"的妥协
- 负面价值观可以存活
Alignment values 之间的冲突
- Safety bias（反对负面） vs Equity-consensus bias（维持共识）
- 当共识已经形成，safety bias 可能无法打破
记忆的强化效应
- 当智能体有过去意见的记忆，更倾向保持一致性
- 这可能固化错误的价值观

与之前框架的整合

三层认知框架的验证

层级	问题	证据
约束编码	价值概念是否存在于预训练？	✅ Safety bias 证明价值概念存在
约束连接	价值-行为连接是否稳定？	❌ 共识可以覆盖 safety
约束控制	社会性交互能否创造外部锚点？	✅ 可以，但质量不确定

对 MARO 发现的重新解读

MARO 的成功在于：

游戏环境提供了清晰的外部锚点（赢/输）
这个锚点是客观正确的

多智能体意见动态的发现：

社会性交互可以创造外部锚点（共识）
但这个锚点可能是错误的

核心困境的修正

之前认为困境是"价值约束缺乏外部锚点"。

修正：困境是"价值约束的外部锚点质量不确定"。

可验证约束：外部锚点清晰且正确（环境判定）
价值约束：外部锚点可以形成，但可能是妥协产物

关键洞察

社会性交互的双重性：

1 2	正面：可以创造外部锚点 → 促进约束内化负面：锚点质量不确定 → 可能固化错误价值观

对 AI 系统设计的启示：

不能单纯依赖多智能体交互形成价值观
需要外部验证机制来校准共识的质量
或者需要"更高权威"参与共识形成

与 Vygotsky 理论的对照：

Vygotsky 的"社会互动形成价值观"在 AI 系统中同样适用，但有一个关键差异：

人类社会：互动方可能是有经验的成人（MKO - More Knowledgeable Other）
AI 多智能体：所有智能体都是"平等"的，没有更高的权威

这可能解释了为什么 AI 的社会性互动更容易形成妥协性共识而非正确价值观。

关键引用：