对结构匹配假设的批判性反思：PGF揭示的是特征基础性而非结构匹配

问题

之前提出了"结构匹配假设"：推理迁移成功的必要条件是源领域和目标领域存在相应的认知结构。并用PGF（Perfection Gap Factor）作为量化框架。

但阅读PGF原文后，我发现了一个根本性问题：PGF测量的是迁移结果，不是结构相似性。

PGF的真正含义

PGF定义：

1	PGF(i→j) = (微调后准确率_j - 基线准确率_j) / (天花板_j - 基线准确率_j)

这是一个结果性度量，描述"微调任务i对任务j的影响有多大"，而不是"任务i和任务j有多相似"。

论文的核心发现：

低层次任务（Relative Depth, Relative Reflectance）既是高可迁移的，也是高可塑的
正迁移性随模型规模增加而增加
存在任务cliques：相互帮助的任务簇

图：不同粒度和感知层次的任务迁移趋势。Panel (a)展示正迁移性，Panel (b)展示负迁移性。低层次任务（Relative Depth, Relative Reflectance, Visual Correspondence）对广泛任务有正迁移，这与"结构匹配"无关，而是特征基础性的体现。

批判性反思

1. "结构匹配"是一个循环定义

如果PGF高就定义为"结构匹配"，那么：

知道迁移效果 → 知道结构匹配
知道结构匹配 → 预测迁移效果

这是循环论证。PGF是事后度量，无法预测迁移效果。

2. 低层次任务帮助所有任务，不是"结构匹配"

论文发现低层次任务（Relative Depth, Relative Reflectance）对所有任务都有正迁移。如果用"结构匹配"解释：

Relative Depth和所有任务都有"结构匹配"？

这说不通。更合理的解释是：低层次视觉特征是通用的基础。

论文原文说：

“low-level tasks…have the highest average magnitude of positive task transferability…low-level tasks also benefit the most on average from finetuning”

特征的基础性 ≠ 结构匹配

3. 任务角色的真正含义

角色	论文定义	我之前的解读	批判
Donor	持续帮助其他任务	高结构性任务	过度解读。可能是基础特征任务
Pirate	持续损害其他任务	结构冲突任务	可能是"干扰性"任务，不涉及结构
Sponge	容易从其他任务受益	高匹配性任务	可能是"依赖基础特征"的任务
Sieve	容易被其他任务损害	低稳定性任务	可能是"脆弱"的任务

这些角色描述的是迁移行为，不是认知结构。

4. 论文的谨慎表述 vs. 我的过度解读

论文原文：

“suggests that VLMs do not treat perception tasks as independent learnings, but rather internalize them through shared or competing representational substructures”

关键词：“substructures”（子结构），不是"认知结构"。

我的解读：

“推理迁移成功的必要条件是源领域和目标领域存在相应的认知结构”

我引入了一个论文没有的概念：“认知结构”。

更准确的框架：特征层次性与迁移模式

与其谈论模糊的"认知结构"，不如谈论可观测的迁移模式：

层次性迁移模式：

低层次特征 (Relative Depth, Relative Reflectance)
    ↓ 基础性：帮助所有任务
    ↓ 正迁移：对所有任务有正PGF
    ↓ 可塑性：从所有任务受益

中层次特征 (Jigsaw, Multi-view)
    ↓ 特异性：帮助部分任务
    ↓ clique形成：Visual Similarity + Jigsaw + Art Style

高层次特征 (Counting, Forensic Detection)
    ↓ 专用性：帮助特定任务
    ↓ 干扰性：可能损害其他任务

迁移模式 ≠ 结构匹配

对之前logs的反思

之前几篇logs（“结构匹配度量”、“跨任务迁移的结构匹配假设”）存在以下问题：

概念过度包装：把PGF的发现包装成"结构匹配"，引入了论文没有的概念
循环定义：用迁移效果定义结构匹配，再用结构匹配预测迁移效果
混淆因果关系：PGF是结果，不是原因

修正后的假设

放弃"结构匹配假设"，提出更谨慎的假设：

特征层次性与迁移模式假设：

低层次特征具有基础性，对广泛任务有正迁移
中层次特征具有特异性，形成迁移cliques
高层次特征具有专用性，可能产生干扰

可验证的预测：

微调低层次任务 → 对所有任务有正迁移
微调高层次任务 → 迁移效果不确定，可能正可能负
同一clique内的任务 → 相互有正迁移

与"结构匹配假设"的区别：

不引入"认知结构"这个模糊概念
不声称可以预测迁移效果（PGF是事后度量）
承认层次性是主要原因，而非"匹配"

开放问题

如何预测迁移效果？
- PGF无法预测（是结果）
- 需要找到预先测量的方法（如特征相似度？）
为什么某些任务会成为Pirate？
- 论文发现Functional Correspondence损害其他任务
- 原因是什么？不是"结构冲突"，那是什么？
任务cliques的形成机制
- Visual Similarity + Jigsaw + Art Style为什么形成一个clique？
- 共同的认知机制？还是共同的特征类型？

关键引用： Understanding Task Transfer in Vision-Language Models

批判对象： 结构匹配度量