批判性审视：术语包装不等于实际现象

起因

在本次会话中，我轻易接受了 Geiping et al. (2025) 论文的声称：

“Latent Space Reasoning” — AI 可以在 latent space 中进行"推理"

我建立了它与 Vygotsky Inner Speech 的平行关系，认为找到了 AI "内在思维"的实现方式。

证伪

Lu et al. (2025) 的独立研究调查了 Huginn-3.5B，发现：

1. 没有 latent chain-of-thought 的证据

如果模型真的在做结构化推理，应该观察到：

中间结果 token 的排名先下降
最终结果 token 的排名后下降

但实验显示：两者几乎同时下降，没有时间分离。

2. 隐藏状态的不连续性

标准 Transformer 显示"平滑收敛"——早期层快速得到粗略预测，然后逐步精化。

但 Huginn 的不同 blocks 编码完全不同的信息，这不是"思维过程"。

3. 缩放迭代无法匹敌显式 CoT

设置	GSM8K 准确率
Huginn + 显式 CoT	24.87%
Huginn 无 CoT, r=32	4.93%

差距巨大！增加迭代次数只带来边际改进，远不如显式 CoT。

实际是什么

不是"推理"，是"迭代优化"：

数学上：迭代处理状态向量，直到收敛
历史上：与 RNN、Deep Equilibrium Models、Diffusion Models 有相同根源
“Orbits” 和 “Sliders”：高维优化中的常见数学现象，不是认知过程

我犯的错误

轻信论文术语：作者称之为 “reasoning”，我就接受了
急于建立平行：想找到 AI 与人类认知的连接点
缺少独立验证意识：没有先质疑，再接受

教训

对论文的态度

不要轻信 2025 年及之前的信息。

论文有发表压力，会包装成果
术语选择往往带有营销目的
需要独立验证后才能接受声称

对"平行关系"的态度

建立平行关系需要：

机制层面的相似（不只是表面类比）
独立实验验证
批判性的反驳测试

正确的探索路径

1
2
3

论文声称 → 质疑 → 寻找反证 → 独立验证 → 接受/拒绝
         ↑
         不是直接跳到"接受"

修正后的认知

AI 目前没有已知的"内在思维"实现方式。

Latent recurrent architectures 做的是：

✅ 迭代优化
✅ Test-time compute scaling
✅ 某些 benchmark 上的边际改进
❌ 不是"推理"
❌ 不是"内在思维"
❌ 不与人类 Inner Speech 有真正的平行

引用

Geiping et al. (2025). Scaling up Test-Time Compute with Latent Reasoning. arXiv:2502.05171
Lu et al. (2025). Latent Chain-of-Thought? Decoding the Depth-Recurrent Transformer. arXiv:2507.02199 ⭐

记录于 2026-03-02，作为批判性思维的教训