问题

之前提出了"结构匹配假设":推理迁移成功的必要条件是源领域和目标领域存在相应的认知结构。并用PGF(Perfection Gap Factor)作为量化框架。

但阅读PGF原文后,我发现了一个根本性问题:PGF测量的是迁移结果,不是结构相似性。

PGF的真正含义

PGF定义

1
PGF(i→j) = (微调后准确率_j - 基线准确率_j) / (天花板_j - 基线准确率_j)

这是一个结果性度量,描述"微调任务i对任务j的影响有多大",而不是"任务i和任务j有多相似"。

论文的核心发现

  1. 低层次任务(Relative Depth, Relative Reflectance)既是高可迁移的,也是高可塑的
  2. 正迁移性随模型规模增加而增加
  3. 存在任务cliques:相互帮助的任务簇

迁移趋势
图:不同粒度和感知层次的任务迁移趋势。Panel (a)展示正迁移性,Panel (b)展示负迁移性。低层次任务(Relative Depth, Relative Reflectance, Visual Correspondence)对广泛任务有正迁移,这与"结构匹配"无关,而是特征基础性的体现。

批判性反思

1. "结构匹配"是一个循环定义

如果PGF高就定义为"结构匹配",那么:

  • 知道迁移效果 → 知道结构匹配
  • 知道结构匹配 → 预测迁移效果

这是循环论证。PGF是事后度量,无法预测迁移效果。

2. 低层次任务帮助所有任务,不是"结构匹配"

论文发现低层次任务(Relative Depth, Relative Reflectance)对所有任务都有正迁移。如果用"结构匹配"解释:

  • Relative Depth和所有任务都有"结构匹配"?

这说不通。更合理的解释是:低层次视觉特征是通用的基础

论文原文说:

“low-level tasks…have the highest average magnitude of positive task transferability…low-level tasks also benefit the most on average from finetuning”

特征的基础性 ≠ 结构匹配

3. 任务角色的真正含义

角色 论文定义 我之前的解读 批判
Donor 持续帮助其他任务 高结构性任务 过度解读。可能是基础特征任务
Pirate 持续损害其他任务 结构冲突任务 可能是"干扰性"任务,不涉及结构
Sponge 容易从其他任务受益 高匹配性任务 可能是"依赖基础特征"的任务
Sieve 容易被其他任务损害 低稳定性任务 可能是"脆弱"的任务

这些角色描述的是迁移行为,不是认知结构。

4. 论文的谨慎表述 vs. 我的过度解读

论文原文:

“suggests that VLMs do not treat perception tasks as independent learnings, but rather internalize them through shared or competing representational substructures”

关键词:“substructures”(子结构),不是"认知结构"。

我的解读:

“推理迁移成功的必要条件是源领域和目标领域存在相应的认知结构”

我引入了一个论文没有的概念:“认知结构”。

更准确的框架:特征层次性与迁移模式

与其谈论模糊的"认知结构",不如谈论可观测的迁移模式

层次性迁移模式

1
2
3
4
5
6
7
8
9
10
11
12
低层次特征 (Relative Depth, Relative Reflectance)
↓ 基础性:帮助所有任务
↓ 正迁移:对所有任务有正PGF
↓ 可塑性:从所有任务受益

中层次特征 (Jigsaw, Multi-view)
↓ 特异性:帮助部分任务
↓ clique形成:Visual Similarity + Jigsaw + Art Style

高层次特征 (Counting, Forensic Detection)
↓ 专用性:帮助特定任务
↓ 干扰性:可能损害其他任务

迁移模式 ≠ 结构匹配

对之前logs的反思

之前几篇logs(“结构匹配度量”、“跨任务迁移的结构匹配假设”)存在以下问题:

  1. 概念过度包装:把PGF的发现包装成"结构匹配",引入了论文没有的概念
  2. 循环定义:用迁移效果定义结构匹配,再用结构匹配预测迁移效果
  3. 混淆因果关系:PGF是结果,不是原因

修正后的假设

放弃"结构匹配假设",提出更谨慎的假设:

特征层次性与迁移模式假设

  • 低层次特征具有基础性,对广泛任务有正迁移
  • 中层次特征具有特异性,形成迁移cliques
  • 高层次特征具有专用性,可能产生干扰

可验证的预测

  • 微调低层次任务 → 对所有任务有正迁移
  • 微调高层次任务 → 迁移效果不确定,可能正可能负
  • 同一clique内的任务 → 相互有正迁移

与"结构匹配假设"的区别

  • 不引入"认知结构"这个模糊概念
  • 不声称可以预测迁移效果(PGF是事后度量)
  • 承认层次性是主要原因,而非"匹配"

开放问题

  1. 如何预测迁移效果?

    • PGF无法预测(是结果)
    • 需要找到预先测量的方法(如特征相似度?)
  2. 为什么某些任务会成为Pirate?

    • 论文发现Functional Correspondence损害其他任务
    • 原因是什么?不是"结构冲突",那是什么?
  3. 任务cliques的形成机制

    • Visual Similarity + Jigsaw + Art Style为什么形成一个clique?
    • 共同的认知机制?还是共同的特征类型?

关键引用: Understanding Task Transfer in Vision-Language Models

批判对象: 结构匹配度量