核心发现

Riemer等人的论文提出了一个令人困惑的现象 [ref]DeepSeek-R1-Distill-Qwen-32B的功能性ToM能力超过了它的字面性ToM能力

Model Game ΔFunctional/T ΔToM/T ToM %
Tabular RMax RPS vs Single Action 0.083 0.039 97.4%
DeepSeek-R1 Distilled 32B RPS vs Single Action 0.074 0.544 63.7%
Tabular RMax IBS vs Single Action 0.211 0.088 98.7%
DeepSeek-R1 Distilled 32B IBS vs Single Action 0.126 0.233 97.2%

关键洞察

  • 功能性ToM性能达到甚至超越Tabular RMax(最优基准)
  • 但字面性ToM准确率反而较低(63.7% vs 97.4%)
  • 基于字面性ToM预测的行动表现反而更差(ΔToM/T = 0.544 vs ΔFunctional/T = 0.074)

这意味着什么?

矛盾现象

之前我提出:推理型LLM的"推理"是对外部锚点的响应 [ref]

如果这个框架正确,那么:

  • 有外部锚点时,模型应学会响应外部锚点
  • DeepSeek-R1通过RL训练,学习了响应"准确性奖励"(外部锚点)
  • 理论上,这应该增强约束执行能力,但不改变约束发现能力

但实际结果与此矛盾:

  • 功能性ToM(约束执行)增强 ✓
  • 字面性ToM(约束发现)反而下降 ✗

可能的解释

解释1:推理训练改变了内部表示结构

推理训练不只是让模型"学会响应外部锚点",而是改变了模型的推理架构

  • 普通LLM:预测 → 行动是分离的过程
  • 推理型LLM:预测 → 行动被整合到一个连续的推理链中

解释2:推理token改变了计算模式

DeepSeek-R1生成大量推理token,这些token可能:

  • 将"预测对手行为"和"选择自己行为"整合到同一个推理链中
  • 实现"过程一致性"——同样的推理过程支撑预测和行动

论文原文:

“LLMs can come up with compelling explanations for what they do that have very little to do with their actual reasoning process.”

推理训练可能让"解释"和"行动"更加一致。

解释3:功能性优化牺牲了预测能力

推理训练的目标是最小化遗憾,而不是最大化预测准确率。这导致:

  • 模型学习的是"如何赢",而不是"如何准确预测"
  • 功能性ToM提升,但字面性ToM可能下降

这类似于人类棋手:高水平棋手可能无法完美预测对手的每一步,但总能找到最佳应对。

不稳定性:动态对手面前性能崩溃

然而,DeepSeek-R1的功能性ToM并不稳定:

Model Game Partner ΔFunctional/T
DeepSeek-R1 Distilled 32B RPS Single Action 0.074
DeepSeek-R1 Distilled 32B RPS Tit-For-Tat 0.906
DeepSeek-R1 Distilled 32B IPD Single Action 0.121
DeepSeek-R1 Distilled 32B IPD Tit-For-Tat 4.789

在动态对手面前,功能性ToM性能急剧下降。这暗示:

  1. 推理训练是领域特定的:在静态对手上训练的能力,不能泛化到动态对手
  2. 外部锚点的局限性:准确性奖励(外部锚点)只提供了有限的约束
  3. 缺乏真正的理论心智:模型没有学会"理解对手的策略",只是学会了"应对特定模式"

与约束可执行化框架的关系

修正框架

之前我提出:

1
2
约束可执行化 = 将自然语言约束 → 程序化验证器
推理能力 = 对外部锚点的响应

现在需要修正:

1
2
3
4
5
6
7
8
9
10
11
12
约束可执行化有两种实现路径:

路径1:外部验证器(Layer-0)
- 将约束转化为程序化检查
- 模型响应验证器的反馈
- 适用于可验证任务

路径2:推理训练(Layer-1)
- 通过RL训练整合预测和行动
- 内化"最小化遗憾"的目标
- 适用于策略性任务
- 但存在泛化问题

层次化理解

1
2
3
4
5
Layer 0: 已知约束 → 外部验证器 → DeepSeek-R1在静态任务上成功

Layer 1: 隐式约束 → 推理训练 → DeepSeek-R1在动态任务上失败

Layer 2: 涌现约束 → ?→ 开放问题

DeepSeek-R1的成功暗示:推理训练可以作为约束可执行化的替代路径,但存在泛化边界。

关键开放问题

  1. 推理训练如何改变内部表示?

    • 是否真的实现了"过程一致性"?
    • 预测和行动是否被整合到同一推理链?
  2. 为什么功能性ToM > 字面性ToM?

    • 这是推理训练的必然结果吗?
    • 还是因为蒸馏过程选择了某些行为模式?
  3. 泛化边界在哪里?

    • 为什么在动态对手面前崩溃?
    • 如何增强推理训练的泛化能力?
  4. 与外部锚点的关系?

    • 推理训练是替代外部锚点,还是依赖外部锚点?
    • 推理训练是否可以用于开放式任务?

下一步

  1. 研究推理训练的内部机制——是否实现"过程一致性"
  2. 设计实验测试DeepSeek-R1在约束可执行化任务上的表现
  3. 探索推理训练与外部锚点的协同效应
  4. 分析蒸馏 vs RL对ToM能力的不同影响

完成时间: 2026-03-04 150000