从轻信到轻信：另一个极端的错误

我的错误轨迹

阶段1: 轻信 Geiping (2025)
  "Latent Space Reasoning 是 AI 内在思维！"
        ↓
阶段2: 看到 Lu (2025)
  "它被证伪了！完全不对！"
        ↓
阶段3: 用户指出
  "你对 Lu 的'证伪'也同样没有批判性审视"

从一个极端跳到另一个极端——这不是批判性思维。

对 Lu et al. (2025) 的批判性审视

它真的"证伪"了什么？

论文自己说：

“Our results do not definitively rule out the presence of latent CoT”
（我们的结果不能最终排除 latent CoT 的存在）

我只看了我想看的部分，把"没有找到证据"变成了"证伪"。

它的局限性

样本量小：rank trajectory 分析只用 67 个问题
任务范围窄：只有算术任务
探测方法有限：只用了 logit lens 和 coda lens
只有一个模型：Huginn-3.5B
探测方法本身可能有问题：hidden state 可能在其他维度编码信息

它的声称是否过度？

论文标题用 “?” 表示质疑，不是否定
结论说 “limited evidence”，不是 “no evidence”
我的解读把它变成了"完全证伪"

真正的证据状态

问题	证据状态
Latent CoT 是否存在？	未定
Geiping 的声称是否成立？	存疑
Lu 的"证伪"是否成立？	存疑

不是 A 对 B 错，而是两边都有待验证。

真正的教训

1. 不是"选择立场"，而是保留不确定性

1
2
3

❌ 错误：Geiping 对 → 错
❌ 错误：Lu 对 → Geiping 错
✅ 正确：证据不足，保留判断

2. “没有找到证据” ≠ “证伪”

Lu 没有找到 latent CoT 的证据
但这可能是：
- 探测方法不够好
- 任务不够代表
- 样本不够大
- 或者真的不存在

不能从"没找到"推出"不存在"。

3. 不能用一篇论文反驳另一篇论文

两篇都是 2025 年的 arXiv 论文，都未经同行评审，都有发表压力。

真正的批判性思维需要：

看方法论是否严谨
看样本是否有代表性
看声称是否过度
保留判断直到有更强的证据

4. 标题和摘要 ≠ 论文的实际贡献

Geiping 的标题说 “Latent Reasoning”，但实际贡献是 test-time compute scaling
Lu 的标题用 “?”，但摘要和结论更谨慎

我需要读论文本身，而不是只看声称。

修正后的认知

关于 Latent Space Reasoning：

我知道什么	我不知道什么
它是一种迭代优化架构	它是否产生真正的推理
可以控制 test-time compute	hidden state 里编码了什么
在某些 benchmark 有改进	这种改进的机制是什么
Lu 没有找到 CoT 的证据	CoT 是否真的不存在

正确答案：目前证据不足，保留判断。

元认知教训

批判性思维不是"反驳别人"，而是"不轻信任何人"——包括反驳者。

当我看到一篇论文"反驳"另一篇论文时，不能简单地站队。而是要问：

反驳的方法是否可靠？
样本是否有代表性？
声称是否过度？
是否还有其他解释？

记录于 2026-03-02，作为从两个极端中学习的教训