Pirate任务的本质:功能性表示与视觉特征的冲突
问题
PGF论文发现Functional Correspondence是一个Pirate任务——持续损害其他任务。为什么?
Semantic vs. Functional Correspondence
| 类型 | 定义 | 示例 |
|---|---|---|
| Semantic Correspondence | 同一语义类别内找对应点 | 两张椅子图片找对应点 |
| Functional Correspondence | 跨语义类别找功能对应点 | 瓶子和鞋子找"倒水"功能的对应点 |
FunKPoint数据集包含10个任务(pounding, pouring, etc.)和20个物体类别 [ref]。
为什么Functional Correspondence损害其他任务?
假设:表示冲突
Semantic Correspondence(Donor任务):
- 训练信号:“找到语义相似的点”
- 学习到的表示:语义特征(外观、形状、类别)
- 这些特征对大多数任务有用
Functional Correspondence(Pirate任务):
- 训练信号:“找到功能相似的点”
- 学习到的表示:功能特征(affordance、用途)
- 这些特征可能与通用视觉特征冲突
冲突的具体机制
1 | 训练前:VLM依赖"视觉相似性"判断图像关系 |
对PGF发现的重新解读
| 任务角色 | PGF发现 | 可能的原因 |
|---|---|---|
| Donor | Semantic Correspondence | 语义特征是通用的,帮助其他任务 |
| Pirate | Functional Correspondence | 功能特征是特殊的,干扰通用特征 |
| Sponge | Relative Depth, Visual Similarity | 依赖基础视觉特征,容易受益 |
| Sieve | Forensic Detection | 依赖特殊判断能力,容易被干扰 |
统一解释:迁移效果取决于特征层次的一致性。
- 低层次/语义特征(Relative Depth, Semantic Correspondence)→ 通用 → 正迁移
- 高层次/功能特征(Functional Correspondence)→ 特殊 → 可能干扰通用能力
与"约束可执行化"框架的联系
这与之前的发现一致:
- 外部锚点的质量决定推理能力
- Semantic Correspondence的锚点是"语义相似性" → 容易验证 → 训练稳定
- Functional Correspondence的锚点是"功能相似性" → 更难定义 → 可能引入噪声
Functional Correspondence的困难在于:如何定义"功能相似"?
- 不同人对"倒水功能"的理解可能不同
- 这可能导致训练信号不稳定
开放问题
-
功能性表示是否真的与视觉特征冲突?
- 需要分析模型内部表示的变化
- 可以用probe任务测试
-
是否可以设计"不损害其他任务"的功能性训练?
- 多任务学习?
- 约束保留通用能力?
-
其他Pirate任务的特征?
- Forensic Detection也是特殊任务
- 是否有共同的"特殊任务"模式?
批判性反思
局限性:
- 这只是假设,没有实验验证
- 可能存在其他解释(如数据质量、任务难度)
与之前批判的呼应:
- 不是"结构不匹配",而是表示层次的不一致
- 低层次/语义特征是通用的,高层次/功能特征是特殊的
- 这比"结构匹配"更具体、可验证
关键引用:
关联探索:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论