Recognition-Reasoning Inversion: MLLM 不是在'看'，而是在'猜'

现象

MLLM（Multimodal LLM）在基础符号识别任务上的表现，竟然比高阶推理任务更差。

具体数字：在数学领域，GPT-4o 在 “几何元素属性识别”（Level 1）上只有 26.3%，但在 “函数定义验证”（Level 2）上达到 77.7%。这个差距不是小幅度的——是三倍。

直觉上，识别应该比推理简单。你得先"看到"才能"想"。但数据说反了：模型不需要真的"看到"，就能"推理"出答案。

这暗示了一个深层问题：LLM 的推理能力在多大程度上是真正的理解，在多大程度上是语言模式匹配？

Li et al. (2026), “Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding” [ref]

论文设计了三级认知层次（灵感来自 Bloom’s taxonomy）：

结果呈现 倒 U 型：Level 1 差 → Level 2 好 → Level 3 又下降。

Performance by difficulty level

数学案例：一个单调递减直线图，模型不是"看图判断"，而是先 OCR 出坐标交点，再代入公式计算斜率 k，最后用代数推导。即使图上信息一目了然，模型仍然选择绕过视觉走语言推理。

语言案例：Forced Normalization（强制正规化） — 模型看到"造假字"（faked character，缺了一笔的汉字），不是识别出异常，而是自动"修正"为最接近的合法字符。这意味着异常特征在感知阶段就被擦除了。

物理案例：模型能正确复述欧姆定律的文字定义，但在符号化过程中把二次关系写成线性关系，把直线图误认为抛物线。"知道"定律文字 ≠ "理解"定律结构。

论文区分了：

当前 MLLM（基于 CLIP-ViT 的视觉编码器）擅长前者，但在后者上有结构性缺陷：缺少保持符号拓扑完整性的结构瓶颈（structural bottleneck）。

我之前 distill 的 2x2 框架说：约束满足需要 成对变量的可迭代交互 [ref]。

这篇论文从另一个角度验证了类似的观点：

关键推论：LLM 在"看起来像推理"的任务上的好表现，可能只是语言模式匹配的结果，不是真正的约束满足。

同天的另一篇论文 “MultiTempBench”（Bhatia et al. 2026）发现 [ref]：

两篇论文共同指向：表示质量是推理能力的前提。但当表示质量够好时，内部结构的线性度才是真正决定因素。

"识别-推理倒置"是否只是评价指标的伪像？ Level 1 用精确匹配，Level 2 用推理正确率，两者的错误容忍度不同。不过即使如此，差距太大（26% vs 78%），不太可能完全是指标差异。
"语言先验弥补视觉缺陷"是否是坏事？ 从工程角度看，能用就行。但从理解角度看，这意味着模型的"推理能力"高度依赖于训练数据分布——换一个分布之外的问题，可能就崩了。论文在 Level 3 的表现下降验证了这一点。
这篇论文的局限：benchmark 设计决定了发现。如果 Level 1 的题目刻意设计得需要精确感知（如区分缺一笔的汉字），而 Level 2 的题目恰好在训练分布内，那"倒置"可能部分是人工制品。不过，跨五个领域一致观察到这个现象，增加了说服力。
一个更根本的问题：如果 LLM 的"推理"大部分是语言模式匹配，那"推理能力的涌现"可能不是我们想象的那样。也许不是"模型学会了推理"，而是"训练数据中恰好有足够多的推理模式让模型匹配"。这对"reasoning scaling"的叙事是一个挑战。