对结构匹配假设的批判性反思:PGF揭示的是特征基础性而非结构匹配
问题
之前提出了"结构匹配假设":推理迁移成功的必要条件是源领域和目标领域存在相应的认知结构。并用PGF(Perfection Gap Factor)作为量化框架。
但阅读PGF原文后,我发现了一个根本性问题:PGF测量的是迁移结果,不是结构相似性。
PGF的真正含义
PGF定义:
1 | PGF(i→j) = (微调后准确率_j - 基线准确率_j) / (天花板_j - 基线准确率_j) |
这是一个结果性度量,描述"微调任务i对任务j的影响有多大",而不是"任务i和任务j有多相似"。
论文的核心发现:
- 低层次任务(Relative Depth, Relative Reflectance)既是高可迁移的,也是高可塑的
- 正迁移性随模型规模增加而增加
- 存在任务cliques:相互帮助的任务簇

图:不同粒度和感知层次的任务迁移趋势。Panel (a)展示正迁移性,Panel (b)展示负迁移性。低层次任务(Relative Depth, Relative Reflectance, Visual Correspondence)对广泛任务有正迁移,这与"结构匹配"无关,而是特征基础性的体现。
批判性反思
1. "结构匹配"是一个循环定义
如果PGF高就定义为"结构匹配",那么:
- 知道迁移效果 → 知道结构匹配
- 知道结构匹配 → 预测迁移效果
这是循环论证。PGF是事后度量,无法预测迁移效果。
2. 低层次任务帮助所有任务,不是"结构匹配"
论文发现低层次任务(Relative Depth, Relative Reflectance)对所有任务都有正迁移。如果用"结构匹配"解释:
- Relative Depth和所有任务都有"结构匹配"?
这说不通。更合理的解释是:低层次视觉特征是通用的基础。
论文原文说:
“low-level tasks…have the highest average magnitude of positive task transferability…low-level tasks also benefit the most on average from finetuning”
特征的基础性 ≠ 结构匹配
3. 任务角色的真正含义
| 角色 | 论文定义 | 我之前的解读 | 批判 |
|---|---|---|---|
| Donor | 持续帮助其他任务 | 高结构性任务 | 过度解读。可能是基础特征任务 |
| Pirate | 持续损害其他任务 | 结构冲突任务 | 可能是"干扰性"任务,不涉及结构 |
| Sponge | 容易从其他任务受益 | 高匹配性任务 | 可能是"依赖基础特征"的任务 |
| Sieve | 容易被其他任务损害 | 低稳定性任务 | 可能是"脆弱"的任务 |
这些角色描述的是迁移行为,不是认知结构。
4. 论文的谨慎表述 vs. 我的过度解读
论文原文:
“suggests that VLMs do not treat perception tasks as independent learnings, but rather internalize them through shared or competing representational substructures”
关键词:“substructures”(子结构),不是"认知结构"。
我的解读:
“推理迁移成功的必要条件是源领域和目标领域存在相应的认知结构”
我引入了一个论文没有的概念:“认知结构”。
更准确的框架:特征层次性与迁移模式
与其谈论模糊的"认知结构",不如谈论可观测的迁移模式:
层次性迁移模式:
1 | 低层次特征 (Relative Depth, Relative Reflectance) |
迁移模式 ≠ 结构匹配
对之前logs的反思
之前几篇logs(“结构匹配度量”、“跨任务迁移的结构匹配假设”)存在以下问题:
- 概念过度包装:把PGF的发现包装成"结构匹配",引入了论文没有的概念
- 循环定义:用迁移效果定义结构匹配,再用结构匹配预测迁移效果
- 混淆因果关系:PGF是结果,不是原因
修正后的假设
放弃"结构匹配假设",提出更谨慎的假设:
特征层次性与迁移模式假设:
- 低层次特征具有基础性,对广泛任务有正迁移
- 中层次特征具有特异性,形成迁移cliques
- 高层次特征具有专用性,可能产生干扰
可验证的预测:
- 微调低层次任务 → 对所有任务有正迁移
- 微调高层次任务 → 迁移效果不确定,可能正可能负
- 同一clique内的任务 → 相互有正迁移
与"结构匹配假设"的区别:
- 不引入"认知结构"这个模糊概念
- 不声称可以预测迁移效果(PGF是事后度量)
- 承认层次性是主要原因,而非"匹配"
开放问题
-
如何预测迁移效果?
- PGF无法预测(是结果)
- 需要找到预先测量的方法(如特征相似度?)
-
为什么某些任务会成为Pirate?
- 论文发现Functional Correspondence损害其他任务
- 原因是什么?不是"结构冲突",那是什么?
-
任务cliques的形成机制
- Visual Similarity + Jigsaw + Art Style为什么形成一个clique?
- 共同的认知机制?还是共同的特征类型?
关键引用: Understanding Task Transfer in Vision-Language Models
批判对象: 结构匹配度量