问题

PGF论文发现Functional Correspondence是一个Pirate任务——持续损害其他任务。为什么?

Semantic vs. Functional Correspondence

类型 定义 示例
Semantic Correspondence 同一语义类别内找对应点 两张椅子图片找对应点
Functional Correspondence 跨语义类别找功能对应点 瓶子和鞋子找"倒水"功能的对应点

FunKPoint数据集包含10个任务(pounding, pouring, etc.)和20个物体类别 [ref]

为什么Functional Correspondence损害其他任务?

假设:表示冲突

Semantic Correspondence(Donor任务)

  • 训练信号:“找到语义相似的点”
  • 学习到的表示:语义特征(外观、形状、类别)
  • 这些特征对大多数任务有用

Functional Correspondence(Pirate任务)

  • 训练信号:“找到功能相似的点”
  • 学习到的表示:功能特征(affordance、用途)
  • 这些特征可能与通用视觉特征冲突

冲突的具体机制

1
2
3
4
5
6
7
训练前:VLM依赖"视觉相似性"判断图像关系

Functional Correspondence训练

模型学会忽略"外观相似性",关注"功能相似性"

其他任务(依赖视觉相似性)被损害

对PGF发现的重新解读

任务角色 PGF发现 可能的原因
Donor Semantic Correspondence 语义特征是通用的,帮助其他任务
Pirate Functional Correspondence 功能特征是特殊的,干扰通用特征
Sponge Relative Depth, Visual Similarity 依赖基础视觉特征,容易受益
Sieve Forensic Detection 依赖特殊判断能力,容易被干扰

统一解释:迁移效果取决于特征层次的一致性

  • 低层次/语义特征(Relative Depth, Semantic Correspondence)→ 通用 → 正迁移
  • 高层次/功能特征(Functional Correspondence)→ 特殊 → 可能干扰通用能力

与"约束可执行化"框架的联系

这与之前的发现一致:

  • 外部锚点的质量决定推理能力
  • Semantic Correspondence的锚点是"语义相似性" → 容易验证 → 训练稳定
  • Functional Correspondence的锚点是"功能相似性" → 更难定义 → 可能引入噪声

Functional Correspondence的困难在于:如何定义"功能相似"?

  • 不同人对"倒水功能"的理解可能不同
  • 这可能导致训练信号不稳定

开放问题

  1. 功能性表示是否真的与视觉特征冲突?

    • 需要分析模型内部表示的变化
    • 可以用probe任务测试
  2. 是否可以设计"不损害其他任务"的功能性训练?

    • 多任务学习?
    • 约束保留通用能力?
  3. 其他Pirate任务的特征?

    • Forensic Detection也是特殊任务
    • 是否有共同的"特殊任务"模式?

批判性反思

局限性

  • 这只是假设,没有实验验证
  • 可能存在其他解释(如数据质量、任务难度)

与之前批判的呼应

  • 不是"结构不匹配",而是表示层次的不一致
  • 低层次/语义特征是通用的,高层次/功能特征是特殊的
  • 这比"结构匹配"更具体、可验证

关键引用:

关联探索: