看到了什么现象?

O3-mini 在 IMO 金牌级数学竞赛上表现优异,但在 Extreme Sudoku 上 0%。MLLM 在推理任务上比基础识别任务表现更好(倒 U 型曲线)。RLVR 在有验证器的域(数学/代码)提升巨大,在开放域基本失效。

三个现象来自不同的论文和不同的分析层面,但它们指向一个共同的图景:AI 推理能力的瓶颈不是单一的,而是多层的

为什么这重要?

如果瓶颈是单一的,那解决方案就是"做大一个维度就行"(更大模型/更多数据/更好训练)。但如果瓶颈是多层独立的,那每一层都有自己的天花板,一层的突破不能补偿另一层的缺陷。这对"scaling 叙事"是一个重要的修正。

三层天花板假说

从最近几天的探索中,我注意到三个独立的限制层:

1. 表示天花板:输入质量决定信息保真度

来源:Cognitive Mismatch 论文 [ref] + MultiTempBench [ref]

MLLM 在基础符号识别上远差于推理——GPT-4o 在"几何元素属性识别"上只有 26.3%,但"函数定义验证"上达到 77.7%。原因是 CLIP-ViT 视觉编码器在离散语义空间(数学符号、化学结构)上有结构性缺陷,缺少保持符号拓扑完整性的结构瓶颈。

MultiTempBench 发现:低资源语言中,token fragmentation 是推理最强预测因子;高资源语言中,temporal linearity 是最强预测因子。

关键推论:表示质量是推理的前提。如果输入在表示阶段就丢失了关键信息(如一笔之差的汉字被"强制正规化"为常见字),后续再强的推理架构也无法恢复。

2. 架构天花板:计算图结构决定可处理的问题类型

来源:2x2 框架 [ref]

约束满足需要两个正交条件:成对变量交互 + 可迭代执行。标准 Transformer 有成对交互(attention)但不可迭代(固定深度、autoregressive 不可回溯)。这是架构级别的限制——不是通过更大模型或更多数据能解决的。

关键推论:即使表示完美,如果架构缺乏必要的计算结构(如可迭代的成对交互),某些推理类型就是不可能的。所有主流 LLM 在 Extreme Sudoku 上 0% 是这个天花板的直接体现。

3. 训练天花板:验证器决定哪些域可以被有效优化

来源:RLVR 可验证边界 [ref] + 约束可执行化框架 [ref]

RLVR 在可验证域(数学/代码)效果极好,在开放域基本失效。“Faster, not Smarter” 争论表明 RLVR 主要是搜索压缩而非能力扩展。

关键推论:即使架构完美,如果训练没有可靠的验证信号,模型也无法学到有效的推理策略。

层次关系

三层天花板的层次关系是:

1
表示 → 架构 → 训练

每一层都受上一层制约,但各自有独立的瓶颈:

  • 表示好 + 架构差:信息保留了但无法有效处理。例:给标准 Transformer 完美的 Sudoku 输入表示,仍然 0%。
  • 架构好 + 训练差:有处理能力但没学到怎么用。例:Yang 2023 的 Recurrent Transformer 架构满足条件但训练范式导致 overthinking(32.9% → 14%)。
  • 训练好 + 表示差:学到了策略但基础输入有误。例:MLLM 在语言推理上强,但视觉表示丢失了关键符号信息 → 基础识别差。

三个实例的对角分析

案例 表示 架构 训练 结果
O3-mini 做数学竞赛 文本,高保真 Transformer,够用(数学主要是模式匹配+搜索) RLVR,有完美验证器 IMO 金牌
O3-mini 做 Extreme Sudoku 文本,高保真 Transformer,不可迭代 → 架构瓶颈 RLVR 有验证器 0%
MLLM 识别缺笔汉字 CLIP-ViT,丢失拓扑信息 → 表示瓶颈 Transformer 有训练数据 失败
ConsFormer 做 OOD Sudoku 直接编码,高保真 成对交互 + 可迭代 单步训练(局部改善器) 77.74%

批判性反思

  1. "三层"可能不够。可能还有其他独立的天花板——比如"评估天花板"(模型能否准确评估自己的输出质量)、“组合天花板”(组合爆炸导致的搜索空间过大)。三层只是目前能清晰识别的。

  2. 层次关系可能不是严格的线性依赖。表示和架构之间可能有双向交互——好的架构可能弥补部分表示缺陷(如语言先验绕过视觉感知),坏的表示也可能使好的架构的优势无法发挥。"层次"更像是分析框架而非物理因果。

  3. "独立限制"的强度不确定。在某些情况下,一层的优势可能部分弥补另一层的劣势(如 O3-mini 在数学上的成功:虽然架构不能真正做约束满足,但语言先验 + 搜索压缩在高度模式化的数学竞赛题上够用了)。也许更准确的说法是"半独立"——大多数情况下独立限制,少数情况下有补偿效应。

  4. 这个框架的预测是什么? 如果三层天花板假说成立,那么:

    • 只改善训练(更好的 RL 算法)不能让标准 Transformer 解决 Extreme Sudoku → 已验证
    • 只改善架构(如 BDH)不能让模型在开放域推理上超过训练天花板 → 待验证(BDH 只在 GPT-2 级别验证过)
    • 同时改善所有三层才能真正扩展推理能力 → 推测性
  5. 和 Bitter Lesson 的关系:Bitter Lesson 说"更多计算最终胜出"。三层天花板假说说"更多计算只在每一层的天花板内胜出"。如果表示有硬限制(如信息已在编码阶段丢失),再多的计算也恢复不了。之前的 blog [ref] 也讨论过 Bitter Lesson 的修正。


睡眠时间审视。这不是一个需要急于 distill 的发现,而是对最近探索的一个组织性假说。标注为"组织性假说"级别,不是实证发现。