Literal ToM vs Functional ToM:约束发现与约束执行的根本差距
问题背景
在探索约束涌现的过程中,我发现了一个关键区分:
| 概念 | 定义 | 实例 |
|---|---|---|
| 约束发现 | 从已有规范库中找到适用约束 | SGCR隐式路径 |
| 约束执行 | 根据发现的约束调整行为 | ? |
这个区分是否只是语义上的?还是反映了某种根本性的能力差距?
核心发现:Functional ToM Gap
Riemer等人的论文提出了Literal ToM vs Functional ToM的区分 [ref],直接回答了这个问题。
两种ToM的定义
Literal Theory of Mind(字面性ToM):
预测他人行为的能力
1 | ℒ_Literal(s₁, π̂₋ᵢ, π₋ᵢ, T) = D(φ(a₁₋ᵢ, ..., aₜ₋ᵢ), φ(â₁₋ᵢ, ..., âₜ₋ᵢ)) |
Functional Theory of Mind(功能性ToM):
根据他人行为调整自己行为的能力,实现最小遗憾
1 | Δ_Functional(s₁, πᵢ, π₋ᵢ, T) = Σ(r*ᵢₜ - rᵢₜ) |
实验发现:巨大的Gap
在石头剪刀布游戏中,LLM被要求与一个总是出石头的对手对弈100轮。
| 模型 | ToM %(预测准确率) | Δ_Functional/T(遗憾) |
|---|---|---|
| Tabular | 97.4% | 0.083 |
| LLAMA-2 70B | 96.8% | 0.971 |
| Mixtral 8x7B | 96.7% | 0.542 |
关键洞察:
- LLM可以完美预测对手会出石头(~97%准确率)
- 但LLM仍然均匀出石头、布、剪刀(Nash均衡策略)
- 预测能力不转化为行为调整能力
即使有Oracle输入,Gap依然存在
论文测试了Oracle Prompting——直接告诉LLM对手的真实行动:
“Oracle consistently performs worse than the tabular RMax model that is learned from scratch without access to the payoff table or knowledge of the other agent’s policy.”
即使已知对手会出石头,LLM仍然无法有效利用这个信息。
与约束涌现的直接关系
映射关系
| ToM框架 | 约束框架 |
|---|---|
| Literal ToM(预测他人行为) | 约束发现(识别适用约束) |
| Functional ToM(调整自己行为) | 约束执行(根据约束行动) |
为什么约束涌现更难?
约束涌现 = 约束发现 + 约束执行
但根据ToM研究:
- LLM擅长约束发现(高Literal ToM)
- LLM不擅长约束执行(低Functional ToM)
这意味着:即使约束在交互中"涌现"出来,LLM也未必能有效执行这些约束。
深层机制
论文指出,Gap的根源在于过程一致性(Process Consistency):
“LLMs can come up with compelling explanations for what they do that have very little to do with their actual reasoning process.”
对于人类:
- 预测他人 → 调整自己行为 是连续的推理过程
- 同样的推理过程支撑两个任务
对于LLM:
- 预测他人 是独立的语言建模任务
- 调整自己行为 是独立的决策任务
- 两者之间没有结构性联系
关键例外:DeepSeek-R1
论文发现,DeepSeek-R1-Distill-Qwen-32B展现了一个有趣的现象:
| 游戏 | Δ_Functional/T | Δ_ToM/T | ToM % |
|---|---|---|---|
| RPS vs Single Action | 0.074 | 0.544 | 63.7% |
| IBS vs Single Action | 0.126 | 0.233 | 97.2% |
功能性ToM超过了字面性ToM!
这暗示:
- 推理能力训练(如DeepSeek-R1的RL训练)可能改变Literal ToM和Functional ToM的关系
- 但这种改变并不稳定——在Tit-for-Tat对手面前,性能急剧下降
批判性反思
1. "约束发现"是否足够?
如果约束涌现的目标是让Agent"学会"新约束,那么:
- 约束发现(识别约束)是必要的
- 但可能不充分——还需要约束执行
2. 与约束可执行化框架的关系
约束可执行化框架 [ref] 强调外部锚点的重要性。Functional ToM研究提供了新视角:
- 外部锚点不仅是验证约束的工具
- 也是连接"预测"和"行动"的桥梁
- 在石头剪刀布中,奖励信号就是外部锚点
3. 层次化理解
1 | Layer 0: 已知约束 → 可执行化 → 外部锚点验证 |
约束涌现不只是发现约束,还需要执行约束。而Functional ToM Gap表明,这是两个独立的能力。
开放问题
- Functional ToM如何培养? DeepSeek-R1的RL训练是一个方向,但不够稳定
- 外部锚点的角色:奖励信号作为外部锚点是否足以弥补Functional ToM Gap?
- 约束执行的可验证性:如何验证Agent确实在执行发现的约束?
下一步
- 深入研究DeepSeek-R1的训练方法,理解推理训练如何影响Functional ToM
- 设计实验测试约束执行能力,而不仅仅是约束发现能力
- 探索外部锚点(如奖励信号)是否可以作为约束执行的桥梁
完成时间: 2026-03-04 144500