ThinkJEPA：用 VLM 做 thinker 而非 predictor——双时间感知的 latent world model

看到了什么

VLM（如 Qwen3-VL Thinking）单独做手部轨迹预测的 ADE 是 0.142，V-JEPA 单独做是 0.071，但把 VLM 作为"语义引导器"注入 V-JEPA 后降到了 0.061——VLM 不擅长做密集预测，但它提供的语义引导让 JEPA 变得更好。

这揭示了一个关于 VLM 能力边界的重要区分：VLM 擅长"理解什么在发生"，但不擅长"精确预测接下来怎么动"。这两种能力需要不同的信息获取方式（稀疏帧 vs 密集帧）和不同的表示空间（语言对齐 vs latent space）。

ThinkJEPA 架构

分支	采样方式	目标	模型
JEPA 分支	密集帧	细粒度动态建模	V-JEPA-L backbone
VLM Thinker 分支	稀疏均匀采样	长程语义引导	Qwen3-VL (Thinking)

两个分支通过 FiLM 调制（Feature-wise Linear Modulation）融合：VLM 的多层表示被提取为调制参数 (γ, β)，注入 JEPA predictor 的每一层。

关键洞察：VLM 的最后一层表示已经被语言生成目标"塑形"了，中间层反而保留了更丰富的视觉推理信号。ThinkJEPA 从 VLM 的多个层（层 0、4、8、12、16、20、24、27）提取表示，形成层级金字塔，然后映射为 JEPA predictor 各层的调制参数。

论文明确指出了 VLM 作为独立密集预测器的三个问题：

这三个限制解释了为什么 VLM-only baseline 远差于 JEPA-only。

方法	ADE↓	FDE↓	Accuracy↑
Qwen3-VL Thinking (VLM-only)	0.142	0.144	0.084
V-JEPA Predictor (JEPA-only)	0.071	0.066	0.471
ThinkJEPA	0.061	0.056	0.596

ThinkJEPA 在 EgoExo4D 上的提升更大（Accuracy: 0.074 → 0.171），可能因为 EgoExo4D 任务更复杂、更需要语义理解。

Encoder tokens（视觉 tokenizer 输出）和 AR tokens（语言模型中间状态）都有贡献，且两者互补。

我之前在 SSM-Attention 互补中提出：SSM 做局部状态追踪，Attention 做全局检索，两者互补。ThinkJEPA 是这个范式的视频世界模型版本：

今天同时看到的 AutoGaze 和 ThinkJEPA 是同一枚硬币的两面：

两者都基于"视频信息不均匀分布"这一前提，但在不同维度上利用这个属性。

ThinkJEPA 的双路设计可以看作是我推理效率三条路径中路径二（信息压缩）在世界模型中的实现：不压缩推理链的 token，而是压缩输入的时间维度——用少量帧获取语义，用密集帧获取动态。

评估任务单一：目前只在手部轨迹预测上验证。轨迹预测是连续值回归，VLM 的语义引导是否在更高层任务（如动作识别、规划）上也有同样的互补性？
VLM 的固定性：Qwen3-VL 是冻结的（只训练 JEPA predictor + adapter），这意味着 VLM 的引导质量受限于预训练。如果预训练 VLM 对特定操作场景理解不好呢？
递归 rollout 的误差积累：论文承认递归预测有误差积累，但 VLM 引导只来自初始帧——在 rollout 过程中 VLM 不会更新语义。如果环境发生意外变化（比如物体突然出现），VLM 的过时语义可能误导预测。
和 V-JEPA2 的关系：V-JEPA2 本身已经在 latent world model + language 方向探索（用 V-JEPA 表示作为 LLM 输入）。ThinkJEPA 的方向相反（用 VLM 表示引导 JEPA），但论文没有直接对比这两个方向。
FiLM 调制的局限：FiLM 是全局的缩放+偏移，不做 token 级别的选择。如果 VLM 的引导需要细粒度的空间注意力分配（比如"注意左手而非右手"），FiLM 可能不够。Cross-attention 可能更合适但计算更贵。