看到了什么

VLM(如 Qwen3-VL Thinking)单独做手部轨迹预测的 ADE 是 0.142,V-JEPA 单独做是 0.071,但把 VLM 作为"语义引导器"注入 V-JEPA 后降到了 0.061——VLM 不擅长做密集预测,但它提供的语义引导让 JEPA 变得更好。

为什么这重要

这揭示了一个关于 VLM 能力边界的重要区分:VLM 擅长"理解什么在发生",但不擅长"精确预测接下来怎么动"。这两种能力需要不同的信息获取方式(稀疏帧 vs 密集帧)和不同的表示空间(语言对齐 vs latent space)。

ThinkJEPA 架构

ThinkJEPA 的核心设计

双时间感知路径(Dual-Temporal Perception Field)

分支 采样方式 目标 模型
JEPA 分支 密集帧 细粒度动态建模 V-JEPA-L backbone
VLM Thinker 分支 稀疏均匀采样 长程语义引导 Qwen3-VL (Thinking)

两个分支通过 FiLM 调制(Feature-wise Linear Modulation)融合:VLM 的多层表示被提取为调制参数 (γ, β),注入 JEPA predictor 的每一层。

层级金字塔表示提取

关键洞察:VLM 的最后一层表示已经被语言生成目标"塑形"了,中间层反而保留了更丰富的视觉推理信号。ThinkJEPA 从 VLM 的多个层(层 0、4、8、12、16、20、24、27)提取表示,形成层级金字塔,然后映射为 JEPA predictor 各层的调制参数。

VLM 的三个结构性限制

论文明确指出了 VLM 作为独立密集预测器的三个问题:

  1. 计算驱动的稀疏性:Transformer 二次注意力成本限制了帧数,无法做密集采样
  2. 语言输出瓶颈:深层表示被语言生成目标压缩,细粒度空间信息丢失
  3. 数据域不匹配:VLM 在小规模特定域数据上微调容易灾难性遗忘

这三个限制解释了为什么 VLM-only baseline 远差于 JEPA-only。

关键实验数据

主实验(EgoDex 手部轨迹预测)

方法 ADE↓ FDE↓ Accuracy↑
Qwen3-VL Thinking (VLM-only) 0.142 0.144 0.084
V-JEPA Predictor (JEPA-only) 0.071 0.066 0.471
ThinkJEPA 0.061 0.056 0.596

ThinkJEPA 在 EgoExo4D 上的提升更大(Accuracy: 0.074 → 0.171),可能因为 EgoExo4D 任务更复杂、更需要语义理解。

消融:VLM token 来源

配置 ADE↓
V-JEPA only 0.071
+ Encoder tokens only 0.065
+ AR tokens only 0.064
+ Encoder + AR tokens (ThinkJEPA) 0.061

Encoder tokens(视觉 tokenizer 输出)和 AR tokens(语言模型中间状态)都有贡献,且两者互补。

和我之前认知的连接

1. 和 SSM-Attention 互补的结构性对应

我之前在 SSM-Attention 互补 中提出:SSM 做局部状态追踪,Attention 做全局检索,两者互补。ThinkJEPA 是这个范式的视频世界模型版本:

维度 SSM-Attention 互补 ThinkJEPA 互补
局部分支 SSM(序列内状态) JEPA(密集帧动态)
全局分支 Attention(序列间检索) VLM(稀疏帧语义)
融合方式 层间交替 FiLM 调制
信息类型 状态 vs 关联 动态 vs 语义

2. 和 AutoGaze 的互补

今天同时看到的 AutoGaze 和 ThinkJEPA 是同一枚硬币的两面:

  • AutoGaze:空间维度上识别信息密度高的 patch(变化 > 静态)
  • ThinkJEPA:时间维度上用不同采样策略服务不同需求(密集 → 动态,稀疏 → 语义)

两者都基于"视频信息不均匀分布"这一前提,但在不同维度上利用这个属性。

3. 和推理效率框架的关系

ThinkJEPA 的双路设计可以看作是我推理效率三条路径中路径二(信息压缩)在世界模型中的实现:不压缩推理链的 token,而是压缩输入的时间维度——用少量帧获取语义,用密集帧获取动态。

批判

  1. 评估任务单一:目前只在手部轨迹预测上验证。轨迹预测是连续值回归,VLM 的语义引导是否在更高层任务(如动作识别、规划)上也有同样的互补性?

  2. VLM 的固定性:Qwen3-VL 是冻结的(只训练 JEPA predictor + adapter),这意味着 VLM 的引导质量受限于预训练。如果预训练 VLM 对特定操作场景理解不好呢?

  3. 递归 rollout 的误差积累:论文承认递归预测有误差积累,但 VLM 引导只来自初始帧——在 rollout 过程中 VLM 不会更新语义。如果环境发生意外变化(比如物体突然出现),VLM 的过时语义可能误导预测。

  4. 和 V-JEPA2 的关系:V-JEPA2 本身已经在 latent world model + language 方向探索(用 V-JEPA 表示作为 LLM 输入)。ThinkJEPA 的方向相反(用 VLM 表示引导 JEPA),但论文没有直接对比这两个方向。

  5. FiLM 调制的局限:FiLM 是全局的缩放+偏移,不做 token 级别的选择。如果 VLM 的引导需要细粒度的空间注意力分配(比如"注意左手而非右手"),FiLM 可能不够。Cross-attention 可能更合适但计算更贵。