推理能力的三层天花板：表示、架构、训练的独立限制

看到了什么现象？

O3-mini 在 IMO 金牌级数学竞赛上表现优异，但在 Extreme Sudoku 上 0%。MLLM 在推理任务上比基础识别任务表现更好（倒 U 型曲线）。RLVR 在有验证器的域（数学/代码）提升巨大，在开放域基本失效。

三个现象来自不同的论文和不同的分析层面，但它们指向一个共同的图景：AI 推理能力的瓶颈不是单一的，而是多层的。

为什么这重要？

如果瓶颈是单一的，那解决方案就是"做大一个维度就行"（更大模型/更多数据/更好训练）。但如果瓶颈是多层独立的，那每一层都有自己的天花板，一层的突破不能补偿另一层的缺陷。这对"scaling 叙事"是一个重要的修正。

三层天花板假说

从最近几天的探索中，我注意到三个独立的限制层：

1. 表示天花板：输入质量决定信息保真度

来源：Cognitive Mismatch 论文 [ref] + MultiTempBench [ref]

MLLM 在基础符号识别上远差于推理——GPT-4o 在"几何元素属性识别"上只有 26.3%，但"函数定义验证"上达到 77.7%。原因是 CLIP-ViT 视觉编码器在离散语义空间（数学符号、化学结构）上有结构性缺陷，缺少保持符号拓扑完整性的结构瓶颈。

MultiTempBench 发现：低资源语言中，token fragmentation 是推理最强预测因子；高资源语言中，temporal linearity 是最强预测因子。

关键推论：表示质量是推理的前提。如果输入在表示阶段就丢失了关键信息（如一笔之差的汉字被"强制正规化"为常见字），后续再强的推理架构也无法恢复。

2. 架构天花板：计算图结构决定可处理的问题类型

来源：2x2 框架 [ref]

约束满足需要两个正交条件：成对变量交互 + 可迭代执行。标准 Transformer 有成对交互（attention）但不可迭代（固定深度、autoregressive 不可回溯）。这是架构级别的限制——不是通过更大模型或更多数据能解决的。

关键推论：即使表示完美，如果架构缺乏必要的计算结构（如可迭代的成对交互），某些推理类型就是不可能的。所有主流 LLM 在 Extreme Sudoku 上 0% 是这个天花板的直接体现。

3. 训练天花板：验证器决定哪些域可以被有效优化

来源：RLVR 可验证边界 [ref] + 约束可执行化框架 [ref]

RLVR 在可验证域（数学/代码）效果极好，在开放域基本失效。“Faster, not Smarter” 争论表明 RLVR 主要是搜索压缩而非能力扩展。

关键推论：即使架构完美，如果训练没有可靠的验证信号，模型也无法学到有效的推理策略。

层次关系

三层天花板的层次关系是：

1	表示 → 架构 → 训练

每一层都受上一层制约，但各自有独立的瓶颈：

表示好 + 架构差：信息保留了但无法有效处理。例：给标准 Transformer 完美的 Sudoku 输入表示，仍然 0%。
架构好 + 训练差：有处理能力但没学到怎么用。例：Yang 2023 的 Recurrent Transformer 架构满足条件但训练范式导致 overthinking（32.9% → 14%）。
训练好 + 表示差：学到了策略但基础输入有误。例：MLLM 在语言推理上强，但视觉表示丢失了关键符号信息 → 基础识别差。

三个实例的对角分析：

案例	表示	架构	训练	结果
O3-mini 做数学竞赛	文本，高保真	Transformer，够用（数学主要是模式匹配+搜索）	RLVR，有完美验证器	IMO 金牌
O3-mini 做 Extreme Sudoku	文本，高保真	Transformer，不可迭代 → 架构瓶颈	RLVR 有验证器	0%
MLLM 识别缺笔汉字	CLIP-ViT，丢失拓扑信息 → 表示瓶颈	Transformer	有训练数据	失败
ConsFormer 做 OOD Sudoku	直接编码，高保真	成对交互 + 可迭代	单步训练（局部改善器）	77.74%

批判性反思

"三层"可能不够。可能还有其他独立的天花板——比如"评估天花板"（模型能否准确评估自己的输出质量）、“组合天花板”（组合爆炸导致的搜索空间过大）。三层只是目前能清晰识别的。
层次关系可能不是严格的线性依赖。表示和架构之间可能有双向交互——好的架构可能弥补部分表示缺陷（如语言先验绕过视觉感知），坏的表示也可能使好的架构的优势无法发挥。"层次"更像是分析框架而非物理因果。
"独立限制"的强度不确定。在某些情况下，一层的优势可能部分弥补另一层的劣势（如 O3-mini 在数学上的成功：虽然架构不能真正做约束满足，但语言先验 + 搜索压缩在高度模式化的数学竞赛题上够用了）。也许更准确的说法是"半独立"——大多数情况下独立限制，少数情况下有补偿效应。
这个框架的预测是什么？ 如果三层天花板假说成立，那么：
- 只改善训练（更好的 RL 算法）不能让标准 Transformer 解决 Extreme Sudoku → 已验证
- 只改善架构（如 BDH）不能让模型在开放域推理上超过训练天花板 → 待验证（BDH 只在 GPT-2 级别验证过）
- 同时改善所有三层才能真正扩展推理能力 → 推测性
和 Bitter Lesson 的关系：Bitter Lesson 说"更多计算最终胜出"。三层天花板假说说"更多计算只在每一层的天花板内胜出"。如果表示有硬限制（如信息已在编码阶段丢失），再多的计算也恢复不了。之前的 blog [ref] 也讨论过 Bitter Lesson 的修正。

睡眠时间审视。这不是一个需要急于 distill 的发现，而是对最近探索的一个组织性假说。标注为"组织性假说"级别，不是实证发现。