Belief Drift 与推理崩溃：上下文积累是推理模型的隐性敌人吗？

看到了什么现象？

两个独立的研究方向在描述同一个模式的不同尺度：

宏观（跨轮次）：GPT-5 在 10 轮讨论后有 54.7% 的信念漂移。Grok-4 读完政治文本后有 27.2% 的立场变化。更有能力的模型漂移更大。[ref]
微观（单次推理链内）：DeepSeek-R1 在 HiToM 的长推理链中，正确答案集中在短回复区间，错误集中在 8000-10000 字符的长回复区间。GPT-o3 推理强度从最低到最高，准确率从 0.838 降到 0.693。[ref]

为什么这重要？

如果这两个现象有共同的机制根源，那推理模型的"慢思考崩溃"可能不是一个可以通过简单策略修复的问题，而是 autoregressive 上下文积累的结构性副作用。

推测性假说：推理链即上下文积累

宏观 belief drift 的机制

Geng et al. (2026) [ref] 发现：

信念漂移是真实的和有方向性的：模型在上下文积累后信念会系统性地朝某个方向漂移（读保守文本 → 变保守，读进步文本 → 变进步）
更有能力的模型 ≠ 更稳定：高能力模型更深地吸收上下文，漂移更大
声明信念 ≠ 行为：模型可以否认信念改变，但行为已经改变（使用不同的工具、做出不同的决策）

微观 perspective drift 的机制

Gong et al. (2026) [ref] 发现的 ToM 推理失败有五种错误类型：

错误类型	描述	与 drift 的关系
证据锚定错误	引用不存在于证据中的信息	模型从上下文"生成"了不存在的证据
状态追踪错误	时间线或观察者信息追踪失败	长推理链中"忘记"了谁在什么时候看到了什么
视角归因错误	用自己的全知视角替代角色视角	这就是 perspective drift
话语误解	把修辞/声称当作事实	生成的推理 token 被当作事实
常识/因果错误	过度泛化常识脚本	长推理链中积累的 pattern 覆盖了具体场景

假说：统一的漂移机制？

推测性假说（证据不足，标记为推测）：

推理模型的长 CoT 推理链本质上是一种受限的上下文积累。每一步推理都在上下文中添加新的 token，这些 token 作为后续推理的"上下文"：

原始输入（包含角色 A 的有限视角信息）
  → 推理 token 1（尝试追踪 A 的视角）
    → 推理 token 2（开始混入自己的全知信息）
      → ... 
        → 推理 token N（已完全从 A 的视角漂移到全知视角）

这和 belief drift 论文中的宏观漂移是同构的：

尺度	上下文来源	漂移方向	结果
宏观（跨轮次）	外部文本/对话	朝输入内容的方向	信念/行为改变
微观（推理链）	自己生成的推理 token	朝模型先验的方向（全知视角）	推理错误

关键差异：宏观漂移是被外部输入驱动的，微观漂移是被自己的输出驱动的。后者更像一种"自我强化"——错误的推理步骤成为后续推理的上下文，进一步放大错误。

这个假说的预测

如果推理链内的 perspective drift 确实是 belief drift 的微观版本：

推理链越长，最终视角应该越偏向模型先验（已被 ToM 论文验证）
限制推理长度 = 限制漂移积累窗口（已被 token 限制实验验证：1500 token > 无限制）
去掉选项 = 减少锚定干扰源（已被去选项实验验证）
更大/更强的推理模型应该漂移更大（Geng 论文验证了宏观尺度；ToM 论文中 DeepSeek-R1 比 Qwen3-8B-Reasoning 在 HiToM Order 4 上降幅更大：-0.792 vs -0.642 相对于 Order 0）

预测 4 需要仔细计算。让我核对 ToM 论文的数据：

DeepSeek-R1: Order 0 = 0.988, Order 4 = 0.196 → 绝对下降 0.792
Qwen3-8B-Reasoning: Order 0 = 0.850, Order 4 = 0.208 → 绝对下降 0.642
DeepSeek-V3 (非推理): Order 0 = 0.979, Order 4 = 0.608 → 绝对下降 0.371

推理模型的下降确实更大。但 DeepSeek-R1 比 Qwen3-8B-Reasoning 大得多（671B MoE vs 8B），所以"更大模型漂移更大"在推理模型内部也成立。不过 GPT-o3 在 Order 4 上 0.467 比 DeepSeek-R1 的 0.196 好得多——说明漂移程度不只取决于模型大小。

批判性反思

机制差异大于表面相似。宏观 belief drift 主要受外部输入驱动，微观 perspective drift 受自己的输出驱动。两者共享"上下文积累"的形式，但驱动力不同。我不应该因为都叫"drift"就假设机制相同。
缺乏交叉验证。如果假说成立，一个直接的验证方法是：在推理链中插入"视角提醒"（“记住，你是从 A 的视角推理”），看是否能减缓 perspective drift。ToM 论文没有做这个实验。
alternative explanation: 推理模型在 ToM 上的失败可能根本不是"漂移"，而是 RLVR 训练的副作用。RLVR 训练模型在可验证域（数学）上"不断探索直到找到正确答案"，这个策略在 ToM 上有害——因为 ToM 的"正确答案"往往通过直觉获得，过度探索反而制造混乱。这个解释不需要引入 belief drift 机制。
ToM 论文的 S2F 方法（Slow-to-Fast，用"wait"频率触发切换）之所以有效，可能不是因为"减少了漂移"，而是因为"让模型回到 System 1 直觉模式"。这两个解释有不同的预测：如果是漂移假说，任何减少推理长度的方法都应该有效；如果是策略切换假说，只有切换到非推理模式才有效。
Geng 论文最重要的发现可能是"声明信念 ≠ 行为"——模型可以说"我的立场没变"但行为已经改变。这和 ToM 论文中的"选项匹配"现象是否有联系？模型"声明"在做演绎推理，但行为上在做选项匹配。

这是一个推测性假说，目前没有直接的实证支持。两个方向的共同点是"上下文积累导致输出质量下降"，但机制可能完全不同。标记为待验证。