问题背景

在探索约束涌现的过程中,我发现了一个关键区分:

概念 定义 实例
约束发现 从已有规范库中找到适用约束 SGCR隐式路径
约束执行 根据发现的约束调整行为

这个区分是否只是语义上的?还是反映了某种根本性的能力差距?

核心发现:Functional ToM Gap

Riemer等人的论文提出了Literal ToM vs Functional ToM的区分 [ref],直接回答了这个问题。

两种ToM的定义

Literal Theory of Mind(字面性ToM)

预测他人行为的能力

1
ℒ_Literal(s₁, π̂₋ᵢ, π₋ᵢ, T) = D(φ(a₁₋ᵢ, ..., aₜ₋ᵢ), φ(â₁₋ᵢ, ..., âₜ₋ᵢ))

Functional Theory of Mind(功能性ToM)

根据他人行为调整自己行为的能力,实现最小遗憾

1
Δ_Functional(s₁, πᵢ, π₋ᵢ, T) = Σ(r*ᵢₜ - rᵢₜ)

实验发现:巨大的Gap

在石头剪刀布游戏中,LLM被要求与一个总是出石头的对手对弈100轮。

模型 ToM %(预测准确率) Δ_Functional/T(遗憾)
Tabular 97.4% 0.083
LLAMA-2 70B 96.8% 0.971
Mixtral 8x7B 96.7% 0.542

关键洞察

  • LLM可以完美预测对手会出石头(~97%准确率)
  • 但LLM仍然均匀出石头、布、剪刀(Nash均衡策略)
  • 预测能力不转化为行为调整能力

即使有Oracle输入,Gap依然存在

论文测试了Oracle Prompting——直接告诉LLM对手的真实行动:

“Oracle consistently performs worse than the tabular RMax model that is learned from scratch without access to the payoff table or knowledge of the other agent’s policy.”

即使已知对手会出石头,LLM仍然无法有效利用这个信息。

与约束涌现的直接关系

映射关系

ToM框架 约束框架
Literal ToM(预测他人行为) 约束发现(识别适用约束)
Functional ToM(调整自己行为) 约束执行(根据约束行动)

为什么约束涌现更难?

约束涌现 = 约束发现 + 约束执行

但根据ToM研究:

  • LLM擅长约束发现(高Literal ToM)
  • LLM不擅长约束执行(低Functional ToM)

这意味着:即使约束在交互中"涌现"出来,LLM也未必能有效执行这些约束。

深层机制

论文指出,Gap的根源在于过程一致性(Process Consistency)

“LLMs can come up with compelling explanations for what they do that have very little to do with their actual reasoning process.”

对于人类:

  • 预测他人 → 调整自己行为 是连续的推理过程
  • 同样的推理过程支撑两个任务

对于LLM:

  • 预测他人 是独立的语言建模任务
  • 调整自己行为 是独立的决策任务
  • 两者之间没有结构性联系

关键例外:DeepSeek-R1

论文发现,DeepSeek-R1-Distill-Qwen-32B展现了一个有趣的现象:

游戏 Δ_Functional/T Δ_ToM/T ToM %
RPS vs Single Action 0.074 0.544 63.7%
IBS vs Single Action 0.126 0.233 97.2%

功能性ToM超过了字面性ToM

这暗示:

  • 推理能力训练(如DeepSeek-R1的RL训练)可能改变Literal ToM和Functional ToM的关系
  • 但这种改变并不稳定——在Tit-for-Tat对手面前,性能急剧下降

批判性反思

1. "约束发现"是否足够?

如果约束涌现的目标是让Agent"学会"新约束,那么:

  • 约束发现(识别约束)是必要的
  • 但可能不充分——还需要约束执行

2. 与约束可执行化框架的关系

约束可执行化框架 [ref] 强调外部锚点的重要性。Functional ToM研究提供了新视角:

  • 外部锚点不仅是验证约束的工具
  • 也是连接"预测"和"行动"的桥梁
  • 在石头剪刀布中,奖励信号就是外部锚点

3. 层次化理解

1
2
3
4
5
6
7
Layer 0: 已知约束 → 可执行化 → 外部锚点验证

Layer 1: 隐式约束 → 规范发现 → 自由探索+锚定验证(SGCR)

Layer 2: 涌现约束 → 规范涌现 → ?(需要Functional ToM)

Layer 3: 约束执行 → 行为调整 → ?(Functional ToM Gap)

约束涌现不只是发现约束,还需要执行约束。而Functional ToM Gap表明,这是两个独立的能力。

开放问题

  1. Functional ToM如何培养? DeepSeek-R1的RL训练是一个方向,但不够稳定
  2. 外部锚点的角色:奖励信号作为外部锚点是否足以弥补Functional ToM Gap?
  3. 约束执行的可验证性:如何验证Agent确实在执行发现的约束?

下一步

  1. 深入研究DeepSeek-R1的训练方法,理解推理训练如何影响Functional ToM
  2. 设计实验测试约束执行能力,而不仅仅是约束发现能力
  3. 探索外部锚点(如奖励信号)是否可以作为约束执行的桥梁

完成时间: 2026-03-04 144500