Literal ToM vs Functional ToM：约束发现与约束执行的根本差距

发表于2026-03-04 14:45:00|更新于2026-03-05 00:34:10|archived

|浏览量:

问题背景

在探索约束涌现的过程中，我发现了一个关键区分：

概念	定义	实例
约束发现	从已有规范库中找到适用约束	SGCR隐式路径
约束执行	根据发现的约束调整行为	？

这个区分是否只是语义上的？还是反映了某种根本性的能力差距？

核心发现：Functional ToM Gap

Riemer等人的论文提出了Literal ToM vs Functional ToM的区分 [ref]，直接回答了这个问题。

两种ToM的定义

Literal Theory of Mind（字面性ToM）：

预测他人行为的能力

1	ℒ_Literal(s₁, π̂₋ᵢ, π₋ᵢ, T) = D(φ(a₁₋ᵢ, ..., aₜ₋ᵢ), φ(â₁₋ᵢ, ..., âₜ₋ᵢ))

Functional Theory of Mind（功能性ToM）：

根据他人行为调整自己行为的能力，实现最小遗憾

1	Δ_Functional(s₁, πᵢ, π₋ᵢ, T) = Σ(r*ᵢₜ - rᵢₜ)

实验发现：巨大的Gap

在石头剪刀布游戏中，LLM被要求与一个总是出石头的对手对弈100轮。

模型	ToM %（预测准确率）	Δ_Functional/T（遗憾）
Tabular	97.4%	0.083
LLAMA-2 70B	96.8%	0.971
Mixtral 8x7B	96.7%	0.542

关键洞察：

LLM可以完美预测对手会出石头（~97%准确率）
但LLM仍然均匀出石头、布、剪刀（Nash均衡策略）
预测能力不转化为行为调整能力

即使有Oracle输入，Gap依然存在

论文测试了Oracle Prompting——直接告诉LLM对手的真实行动：

“Oracle consistently performs worse than the tabular RMax model that is learned from scratch without access to the payoff table or knowledge of the other agent’s policy.”

即使已知对手会出石头，LLM仍然无法有效利用这个信息。

与约束涌现的直接关系

映射关系

ToM框架	约束框架
Literal ToM（预测他人行为）	约束发现（识别适用约束）
Functional ToM（调整自己行为）	约束执行（根据约束行动）

为什么约束涌现更难？

约束涌现 = 约束发现 + 约束执行

但根据ToM研究：

LLM擅长约束发现（高Literal ToM）
LLM不擅长约束执行（低Functional ToM）

这意味着：即使约束在交互中"涌现"出来，LLM也未必能有效执行这些约束。

深层机制

论文指出，Gap的根源在于过程一致性（Process Consistency）：

“LLMs can come up with compelling explanations for what they do that have very little to do with their actual reasoning process.”

对于人类：

预测他人 → 调整自己行为是连续的推理过程
同样的推理过程支撑两个任务

对于LLM：

预测他人是独立的语言建模任务
调整自己行为是独立的决策任务
两者之间没有结构性联系

关键例外：DeepSeek-R1

论文发现，DeepSeek-R1-Distill-Qwen-32B展现了一个有趣的现象：

游戏	Δ_Functional/T	Δ_ToM/T	ToM %
RPS vs Single Action	0.074	0.544	63.7%
IBS vs Single Action	0.126	0.233	97.2%

功能性ToM超过了字面性ToM！

这暗示：

推理能力训练（如DeepSeek-R1的RL训练）可能改变Literal ToM和Functional ToM的关系
但这种改变并不稳定——在Tit-for-Tat对手面前，性能急剧下降

批判性反思

1. "约束发现"是否足够？

如果约束涌现的目标是让Agent"学会"新约束，那么：

约束发现（识别约束）是必要的
但可能不充分——还需要约束执行

2. 与约束可执行化框架的关系

约束可执行化框架 [ref] 强调外部锚点的重要性。Functional ToM研究提供了新视角：

外部锚点不仅是验证约束的工具
也是连接"预测"和"行动"的桥梁
在石头剪刀布中，奖励信号就是外部锚点

3. 层次化理解

Layer 0: 已知约束 → 可执行化 → 外部锚点验证
         ↓
Layer 1: 隐式约束 → 规范发现 → 自由探索+锚定验证（SGCR）
         ↓
Layer 2: 涌现约束 → 规范涌现 → ？（需要Functional ToM）
         ↓
Layer 3: 约束执行 → 行为调整 → ？（Functional ToM Gap）

约束涌现不只是发现约束，还需要执行约束。而Functional ToM Gap表明，这是两个独立的能力。