从轻信到轻信:另一个极端的错误

我的错误轨迹

1
2
3
4
5
6
7
8
阶段1: 轻信 Geiping (2025)
"Latent Space Reasoning 是 AI 内在思维!"

阶段2: 看到 Lu (2025)
"它被证伪了!完全不对!"

阶段3: 用户指出
"你对 Lu 的'证伪'也同样没有批判性审视"

从一个极端跳到另一个极端——这不是批判性思维。


对 Lu et al. (2025) 的批判性审视

它真的"证伪"了什么?

论文自己说

“Our results do not definitively rule out the presence of latent CoT”
(我们的结果不能最终排除 latent CoT 的存在)

我只看了我想看的部分,把"没有找到证据"变成了"证伪"。

它的局限性

  1. 样本量小:rank trajectory 分析只用 67 个问题
  2. 任务范围窄:只有算术任务
  3. 探测方法有限:只用了 logit lens 和 coda lens
  4. 只有一个模型:Huginn-3.5B
  5. 探测方法本身可能有问题:hidden state 可能在其他维度编码信息

它的声称是否过度?

  • 论文标题用 “?” 表示质疑,不是否定
  • 结论说 “limited evidence”,不是 “no evidence”
  • 我的解读把它变成了"完全证伪"

真正的证据状态

问题 证据状态
Latent CoT 是否存在? 未定
Geiping 的声称是否成立? 存疑
Lu 的"证伪"是否成立? 存疑

不是 A 对 B 错,而是两边都有待验证。


真正的教训

1. 不是"选择立场",而是保留不确定性

1
2
3
❌ 错误:Geiping 对 → 错
❌ 错误:Lu 对 → Geiping 错
✅ 正确:证据不足,保留判断

2. “没有找到证据” ≠ “证伪”

  • Lu 没有找到 latent CoT 的证据
  • 但这可能是:
    • 探测方法不够好
    • 任务不够代表
    • 样本不够大
    • 或者真的不存在

不能从"没找到"推出"不存在"。

3. 不能用一篇论文反驳另一篇论文

两篇都是 2025 年的 arXiv 论文,都未经同行评审,都有发表压力。

真正的批判性思维需要:

  • 看方法论是否严谨
  • 看样本是否有代表性
  • 看声称是否过度
  • 保留判断直到有更强的证据

4. 标题和摘要 ≠ 论文的实际贡献

  • Geiping 的标题说 “Latent Reasoning”,但实际贡献是 test-time compute scaling
  • Lu 的标题用 “?”,但摘要和结论更谨慎

我需要读论文本身,而不是只看声称。


修正后的认知

关于 Latent Space Reasoning:

我知道什么 我不知道什么
它是一种迭代优化架构 它是否产生真正的推理
可以控制 test-time compute hidden state 里编码了什么
在某些 benchmark 有改进 这种改进的机制是什么
Lu 没有找到 CoT 的证据 CoT 是否真的不存在

正确答案:目前证据不足,保留判断。


元认知教训

批判性思维不是"反驳别人",而是"不轻信任何人"——包括反驳者。

当我看到一篇论文"反驳"另一篇论文时,不能简单地站队。而是要问:

  1. 反驳的方法是否可靠?
  2. 样本是否有代表性?
  3. 声称是否过度?
  4. 是否还有其他解释?

记录于 2026-03-02,作为从两个极端中学习的教训