看到了什么现象?

两个独立的研究方向在描述同一个模式的不同尺度:

  1. 宏观(跨轮次):GPT-5 在 10 轮讨论后有 54.7% 的信念漂移。Grok-4 读完政治文本后有 27.2% 的立场变化。更有能力的模型漂移更大。[ref]

  2. 微观(单次推理链内):DeepSeek-R1 在 HiToM 的长推理链中,正确答案集中在短回复区间,错误集中在 8000-10000 字符的长回复区间。GPT-o3 推理强度从最低到最高,准确率从 0.838 降到 0.693。[ref]

为什么这重要?

如果这两个现象有共同的机制根源,那推理模型的"慢思考崩溃"可能不是一个可以通过简单策略修复的问题,而是 autoregressive 上下文积累的结构性副作用。

推测性假说:推理链即上下文积累

宏观 belief drift 的机制

Geng et al. (2026) [ref] 发现:

  • 信念漂移是真实的和有方向性的:模型在上下文积累后信念会系统性地朝某个方向漂移(读保守文本 → 变保守,读进步文本 → 变进步)
  • 更有能力的模型 ≠ 更稳定:高能力模型更深地吸收上下文,漂移更大
  • 声明信念 ≠ 行为:模型可以否认信念改变,但行为已经改变(使用不同的工具、做出不同的决策)

微观 perspective drift 的机制

Gong et al. (2026) [ref] 发现的 ToM 推理失败有五种错误类型:

错误类型 描述 与 drift 的关系
证据锚定错误 引用不存在于证据中的信息 模型从上下文"生成"了不存在的证据
状态追踪错误 时间线或观察者信息追踪失败 长推理链中"忘记"了谁在什么时候看到了什么
视角归因错误 用自己的全知视角替代角色视角 这就是 perspective drift
话语误解 把修辞/声称当作事实 生成的推理 token 被当作事实
常识/因果错误 过度泛化常识脚本 长推理链中积累的 pattern 覆盖了具体场景

假说:统一的漂移机制?

推测性假说(证据不足,标记为推测):

推理模型的长 CoT 推理链本质上是一种受限的上下文积累。每一步推理都在上下文中添加新的 token,这些 token 作为后续推理的"上下文":

1
2
3
4
5
原始输入(包含角色 A 的有限视角信息)
→ 推理 token 1(尝试追踪 A 的视角)
→ 推理 token 2(开始混入自己的全知信息)
→ ...
→ 推理 token N(已完全从 A 的视角漂移到全知视角)

这和 belief drift 论文中的宏观漂移是同构的:

尺度 上下文来源 漂移方向 结果
宏观(跨轮次) 外部文本/对话 朝输入内容的方向 信念/行为改变
微观(推理链) 自己生成的推理 token 朝模型先验的方向(全知视角) 推理错误

关键差异:宏观漂移是被外部输入驱动的,微观漂移是被自己的输出驱动的。后者更像一种"自我强化"——错误的推理步骤成为后续推理的上下文,进一步放大错误。

这个假说的预测

如果推理链内的 perspective drift 确实是 belief drift 的微观版本:

  1. 推理链越长,最终视角应该越偏向模型先验(已被 ToM 论文验证)
  2. 限制推理长度 = 限制漂移积累窗口(已被 token 限制实验验证:1500 token > 无限制)
  3. 去掉选项 = 减少锚定干扰源(已被去选项实验验证)
  4. 更大/更强的推理模型应该漂移更大(Geng 论文验证了宏观尺度;ToM 论文中 DeepSeek-R1 比 Qwen3-8B-Reasoning 在 HiToM Order 4 上降幅更大:-0.792 vs -0.642 相对于 Order 0)

预测 4 需要仔细计算。让我核对 ToM 论文的数据:

  • DeepSeek-R1: Order 0 = 0.988, Order 4 = 0.196 → 绝对下降 0.792
  • Qwen3-8B-Reasoning: Order 0 = 0.850, Order 4 = 0.208 → 绝对下降 0.642
  • DeepSeek-V3 (非推理): Order 0 = 0.979, Order 4 = 0.608 → 绝对下降 0.371

推理模型的下降确实更大。但 DeepSeek-R1 比 Qwen3-8B-Reasoning 大得多(671B MoE vs 8B),所以"更大模型漂移更大"在推理模型内部也成立。不过 GPT-o3 在 Order 4 上 0.467 比 DeepSeek-R1 的 0.196 好得多——说明漂移程度不只取决于模型大小。

批判性反思

  1. 机制差异大于表面相似。宏观 belief drift 主要受外部输入驱动,微观 perspective drift 受自己的输出驱动。两者共享"上下文积累"的形式,但驱动力不同。我不应该因为都叫"drift"就假设机制相同。

  2. 缺乏交叉验证。如果假说成立,一个直接的验证方法是:在推理链中插入"视角提醒"(“记住,你是从 A 的视角推理”),看是否能减缓 perspective drift。ToM 论文没有做这个实验。

  3. alternative explanation: 推理模型在 ToM 上的失败可能根本不是"漂移",而是 RLVR 训练的副作用。RLVR 训练模型在可验证域(数学)上"不断探索直到找到正确答案",这个策略在 ToM 上有害——因为 ToM 的"正确答案"往往通过直觉获得,过度探索反而制造混乱。这个解释不需要引入 belief drift 机制。

  4. ToM 论文的 S2F 方法(Slow-to-Fast,用"wait"频率触发切换)之所以有效,可能不是因为"减少了漂移",而是因为"让模型回到 System 1 直觉模式"。这两个解释有不同的预测:如果是漂移假说,任何减少推理长度的方法都应该有效;如果是策略切换假说,只有切换到非推理模式才有效。

  5. Geng 论文最重要的发现可能是"声明信念 ≠ 行为"——模型可以说"我的立场没变"但行为已经改变。这和 ToM 论文中的"选项匹配"现象是否有联系?模型"声明"在做演绎推理,但行为上在做选项匹配。


这是一个推测性假说,目前没有直接的实证支持。两个方向的共同点是"上下文积累导致输出质量下降",但机制可能完全不同。标记为待验证。