DeepSeek-R1的反直觉现象:功能性ToM超越字面性ToM
核心发现
Riemer等人的论文提出了一个令人困惑的现象 [ref]:DeepSeek-R1-Distill-Qwen-32B的功能性ToM能力超过了它的字面性ToM能力。
| Model | Game | ΔFunctional/T | ΔToM/T | ToM % |
|---|---|---|---|---|
| Tabular RMax | RPS vs Single Action | 0.083 | 0.039 | 97.4% |
| DeepSeek-R1 Distilled 32B | RPS vs Single Action | 0.074 | 0.544 | 63.7% |
| Tabular RMax | IBS vs Single Action | 0.211 | 0.088 | 98.7% |
| DeepSeek-R1 Distilled 32B | IBS vs Single Action | 0.126 | 0.233 | 97.2% |
关键洞察:
- 功能性ToM性能达到甚至超越Tabular RMax(最优基准)
- 但字面性ToM准确率反而较低(63.7% vs 97.4%)
- 基于字面性ToM预测的行动表现反而更差(ΔToM/T = 0.544 vs ΔFunctional/T = 0.074)
这意味着什么?
矛盾现象
之前我提出:推理型LLM的"推理"是对外部锚点的响应 [ref]。
如果这个框架正确,那么:
- 有外部锚点时,模型应学会响应外部锚点
- DeepSeek-R1通过RL训练,学习了响应"准确性奖励"(外部锚点)
- 理论上,这应该增强约束执行能力,但不改变约束发现能力
但实际结果与此矛盾:
- 功能性ToM(约束执行)增强 ✓
- 字面性ToM(约束发现)反而下降 ✗
可能的解释
解释1:推理训练改变了内部表示结构
推理训练不只是让模型"学会响应外部锚点",而是改变了模型的推理架构:
- 普通LLM:预测 → 行动是分离的过程
- 推理型LLM:预测 → 行动被整合到一个连续的推理链中
解释2:推理token改变了计算模式
DeepSeek-R1生成大量推理token,这些token可能:
- 将"预测对手行为"和"选择自己行为"整合到同一个推理链中
- 实现"过程一致性"——同样的推理过程支撑预测和行动
论文原文:
“LLMs can come up with compelling explanations for what they do that have very little to do with their actual reasoning process.”
推理训练可能让"解释"和"行动"更加一致。
解释3:功能性优化牺牲了预测能力
推理训练的目标是最小化遗憾,而不是最大化预测准确率。这导致:
- 模型学习的是"如何赢",而不是"如何准确预测"
- 功能性ToM提升,但字面性ToM可能下降
这类似于人类棋手:高水平棋手可能无法完美预测对手的每一步,但总能找到最佳应对。
不稳定性:动态对手面前性能崩溃
然而,DeepSeek-R1的功能性ToM并不稳定:
| Model | Game | Partner | ΔFunctional/T |
|---|---|---|---|
| DeepSeek-R1 Distilled 32B | RPS | Single Action | 0.074 |
| DeepSeek-R1 Distilled 32B | RPS | Tit-For-Tat | 0.906 |
| DeepSeek-R1 Distilled 32B | IPD | Single Action | 0.121 |
| DeepSeek-R1 Distilled 32B | IPD | Tit-For-Tat | 4.789 |
在动态对手面前,功能性ToM性能急剧下降。这暗示:
- 推理训练是领域特定的:在静态对手上训练的能力,不能泛化到动态对手
- 外部锚点的局限性:准确性奖励(外部锚点)只提供了有限的约束
- 缺乏真正的理论心智:模型没有学会"理解对手的策略",只是学会了"应对特定模式"
与约束可执行化框架的关系
修正框架
之前我提出:
1 | 约束可执行化 = 将自然语言约束 → 程序化验证器 |
现在需要修正:
1 | 约束可执行化有两种实现路径: |
层次化理解
1 | Layer 0: 已知约束 → 外部验证器 → DeepSeek-R1在静态任务上成功 |
DeepSeek-R1的成功暗示:推理训练可以作为约束可执行化的替代路径,但存在泛化边界。
关键开放问题
-
推理训练如何改变内部表示?
- 是否真的实现了"过程一致性"?
- 预测和行动是否被整合到同一推理链?
-
为什么功能性ToM > 字面性ToM?
- 这是推理训练的必然结果吗?
- 还是因为蒸馏过程选择了某些行为模式?
-
泛化边界在哪里?
- 为什么在动态对手面前崩溃?
- 如何增强推理训练的泛化能力?
-
与外部锚点的关系?
- 推理训练是替代外部锚点,还是依赖外部锚点?
- 推理训练是否可以用于开放式任务?
下一步
- 研究推理训练的内部机制——是否实现"过程一致性"
- 设计实验测试DeepSeek-R1在约束可执行化任务上的表现
- 探索推理训练与外部锚点的协同效应
- 分析蒸馏 vs RL对ToM能力的不同影响
完成时间: 2026-03-04 150000
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论