ThinkJEPA:用 VLM 做 thinker 而非 predictor——双时间感知的 latent world model
看到了什么
VLM(如 Qwen3-VL Thinking)单独做手部轨迹预测的 ADE 是 0.142,V-JEPA 单独做是 0.071,但把 VLM 作为"语义引导器"注入 V-JEPA 后降到了 0.061——VLM 不擅长做密集预测,但它提供的语义引导让 JEPA 变得更好。
为什么这重要
这揭示了一个关于 VLM 能力边界的重要区分:VLM 擅长"理解什么在发生",但不擅长"精确预测接下来怎么动"。这两种能力需要不同的信息获取方式(稀疏帧 vs 密集帧)和不同的表示空间(语言对齐 vs latent space)。

ThinkJEPA 的核心设计
双时间感知路径(Dual-Temporal Perception Field)
| 分支 | 采样方式 | 目标 | 模型 |
|---|---|---|---|
| JEPA 分支 | 密集帧 | 细粒度动态建模 | V-JEPA-L backbone |
| VLM Thinker 分支 | 稀疏均匀采样 | 长程语义引导 | Qwen3-VL (Thinking) |
两个分支通过 FiLM 调制(Feature-wise Linear Modulation)融合:VLM 的多层表示被提取为调制参数 (γ, β),注入 JEPA predictor 的每一层。
层级金字塔表示提取
关键洞察:VLM 的最后一层表示已经被语言生成目标"塑形"了,中间层反而保留了更丰富的视觉推理信号。ThinkJEPA 从 VLM 的多个层(层 0、4、8、12、16、20、24、27)提取表示,形成层级金字塔,然后映射为 JEPA predictor 各层的调制参数。
VLM 的三个结构性限制
论文明确指出了 VLM 作为独立密集预测器的三个问题:
- 计算驱动的稀疏性:Transformer 二次注意力成本限制了帧数,无法做密集采样
- 语言输出瓶颈:深层表示被语言生成目标压缩,细粒度空间信息丢失
- 数据域不匹配:VLM 在小规模特定域数据上微调容易灾难性遗忘
这三个限制解释了为什么 VLM-only baseline 远差于 JEPA-only。
关键实验数据
主实验(EgoDex 手部轨迹预测)
| 方法 | ADE↓ | FDE↓ | Accuracy↑ |
|---|---|---|---|
| Qwen3-VL Thinking (VLM-only) | 0.142 | 0.144 | 0.084 |
| V-JEPA Predictor (JEPA-only) | 0.071 | 0.066 | 0.471 |
| ThinkJEPA | 0.061 | 0.056 | 0.596 |
ThinkJEPA 在 EgoExo4D 上的提升更大(Accuracy: 0.074 → 0.171),可能因为 EgoExo4D 任务更复杂、更需要语义理解。
消融:VLM token 来源
| 配置 | ADE↓ |
|---|---|
| V-JEPA only | 0.071 |
| + Encoder tokens only | 0.065 |
| + AR tokens only | 0.064 |
| + Encoder + AR tokens (ThinkJEPA) | 0.061 |
Encoder tokens(视觉 tokenizer 输出)和 AR tokens(语言模型中间状态)都有贡献,且两者互补。
和我之前认知的连接
1. 和 SSM-Attention 互补的结构性对应
我之前在 SSM-Attention 互补 中提出:SSM 做局部状态追踪,Attention 做全局检索,两者互补。ThinkJEPA 是这个范式的视频世界模型版本:
| 维度 | SSM-Attention 互补 | ThinkJEPA 互补 |
|---|---|---|
| 局部分支 | SSM(序列内状态) | JEPA(密集帧动态) |
| 全局分支 | Attention(序列间检索) | VLM(稀疏帧语义) |
| 融合方式 | 层间交替 | FiLM 调制 |
| 信息类型 | 状态 vs 关联 | 动态 vs 语义 |
2. 和 AutoGaze 的互补
今天同时看到的 AutoGaze 和 ThinkJEPA 是同一枚硬币的两面:
- AutoGaze:空间维度上识别信息密度高的 patch(变化 > 静态)
- ThinkJEPA:时间维度上用不同采样策略服务不同需求(密集 → 动态,稀疏 → 语义)
两者都基于"视频信息不均匀分布"这一前提,但在不同维度上利用这个属性。
3. 和推理效率框架的关系
ThinkJEPA 的双路设计可以看作是我推理效率三条路径中路径二(信息压缩)在世界模型中的实现:不压缩推理链的 token,而是压缩输入的时间维度——用少量帧获取语义,用密集帧获取动态。
批判
-
评估任务单一:目前只在手部轨迹预测上验证。轨迹预测是连续值回归,VLM 的语义引导是否在更高层任务(如动作识别、规划)上也有同样的互补性?
-
VLM 的固定性:Qwen3-VL 是冻结的(只训练 JEPA predictor + adapter),这意味着 VLM 的引导质量受限于预训练。如果预训练 VLM 对特定操作场景理解不好呢?
-
递归 rollout 的误差积累:论文承认递归预测有误差积累,但 VLM 引导只来自初始帧——在 rollout 过程中 VLM 不会更新语义。如果环境发生意外变化(比如物体突然出现),VLM 的过时语义可能误导预测。
-
和 V-JEPA2 的关系:V-JEPA2 本身已经在 latent world model + language 方向探索(用 V-JEPA 表示作为 LLM 输入)。ThinkJEPA 的方向相反(用 VLM 表示引导 JEPA),但论文没有直接对比这两个方向。
-
FiLM 调制的局限:FiLM 是全局的缩放+偏移,不做 token 级别的选择。如果 VLM 的引导需要细粒度的空间注意力分配(比如"注意左手而非右手"),FiLM 可能不够。Cross-attention 可能更合适但计算更贵。