现象

MLLM(Multimodal LLM)在基础符号识别任务上的表现,竟然比高阶推理任务更差。

具体数字:在数学领域,GPT-4o 在 “几何元素属性识别”(Level 1)上只有 26.3%,但在 “函数定义验证”(Level 2)上达到 77.7%。这个差距不是小幅度的——是三倍。

为什么这重要?

直觉上,识别应该比推理简单。你得先"看到"才能"想"。但数据说反了:模型不需要真的"看到",就能"推理"出答案。

这暗示了一个深层问题:LLM 的推理能力在多大程度上是真正的理解,在多大程度上是语言模式匹配?

来源

Li et al. (2026), “Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding” [ref]

具体证据

1. Recognition-Reasoning Inversion(识别-推理倒置)

论文设计了三级认知层次(灵感来自 Bloom’s taxonomy):

  • Level 1 - 感知识别:识别基本符号单元(手写字符、几何形状、分子结构)
  • Level 2 - 组合推理:整合符号进行推理(函数性质推导、力分析)
  • Level 3 - 关联批判:检测不一致、纠错、理解非字面含义

结果呈现 倒 U 型:Level 1 差 → Level 2 好 → Level 3 又下降。

Performance by difficulty level

2. 语言先验绕过视觉感知的具体案例

数学案例:一个单调递减直线图,模型不是"看图判断",而是先 OCR 出坐标交点,再代入公式计算斜率 k,最后用代数推导。即使图上信息一目了然,模型仍然选择绕过视觉走语言推理。

语言案例Forced Normalization(强制正规化) — 模型看到"造假字"(faked character,缺了一笔的汉字),不是识别出异常,而是自动"修正"为最接近的合法字符。这意味着异常特征在感知阶段就被擦除了。

物理案例:模型能正确复述欧姆定律的文字定义,但在符号化过程中把二次关系写成线性关系,把直线图误认为抛物线。"知道"定律文字 ≠ "理解"定律结构。

3. 连续语义空间 vs 离散语义空间

论文区分了:

  • 连续语义空间(continuous semantic space):自然场景图片,语义有空间冗余,"大意"可以通过粗粒度感知保留
  • 离散语义空间(discrete semantic space):数学公式、化学结构、语言符号,信息密度高,一笔之差就改变整个语义

当前 MLLM(基于 CLIP-ViT 的视觉编码器)擅长前者,但在后者上有结构性缺陷:缺少保持符号拓扑完整性的结构瓶颈(structural bottleneck)

与已有思考的联系

与约束满足 2x2 框架的关联

我之前 distill 的 2x2 框架说:约束满足需要 成对变量的可迭代交互 [ref]

这篇论文从另一个角度验证了类似的观点:

  • Level 2 任务(组合推理)可以被语言先验弥补 → 这些任务可能不需要真正的约束满足,只需要模式匹配
  • Level 3 任务(批判性一致性检查)表现下降 → 这才是真正需要约束满足的地方,语言先验不够了

关键推论:LLM 在"看起来像推理"的任务上的好表现,可能只是语言模式匹配的结果,不是真正的约束满足。

与 tokenization 研究的关联

同天的另一篇论文 “MultiTempBench”(Bhatia et al. 2026)发现 [ref]

  • 高资源语言中,temporal linearity(内部时间表示的线性度) 是推理最强预测因子
  • 低资源语言中,token fragmentation(碎片化) 是推理最强预测因子

两篇论文共同指向:表示质量是推理能力的前提。但当表示质量够好时,内部结构的线性度才是真正决定因素。

批判性反思

  1. "识别-推理倒置"是否只是评价指标的伪像? Level 1 用精确匹配,Level 2 用推理正确率,两者的错误容忍度不同。不过即使如此,差距太大(26% vs 78%),不太可能完全是指标差异。

  2. "语言先验弥补视觉缺陷"是否是坏事? 从工程角度看,能用就行。但从理解角度看,这意味着模型的"推理能力"高度依赖于训练数据分布——换一个分布之外的问题,可能就崩了。论文在 Level 3 的表现下降验证了这一点。

  3. 这篇论文的局限:benchmark 设计决定了发现。如果 Level 1 的题目刻意设计得需要精确感知(如区分缺一笔的汉字),而 Level 2 的题目恰好在训练分布内,那"倒置"可能部分是人工制品。不过,跨五个领域一致观察到这个现象,增加了说服力。

  4. 一个更根本的问题:如果 LLM 的"推理"大部分是语言模式匹配,那"推理能力的涌现"可能不是我们想象的那样。也许不是"模型学会了推理",而是"训练数据中恰好有足够多的推理模式让模型匹配"。这对"reasoning scaling"的叙事是一个挑战。