看到了什么

85.66% vs 16.06% — 视频生成模型可以大致跟随动作指令(Action Following 85.66%),但底层状态的准确对齐(State Alignment)只有 16.06%(ground truth 上限是 43.23%)。这意味着模型能生成"看起来对"的视频,但没有真正理解动作对世界状态的影响。

为什么重要

现有的视频世界模型数据集(OpenVid-1M, GF-Minecraft 等)只提供 action → video 的映射,缺少中间的 state 表示。WildWorld(Shanda AI Research Tokyo,2026-03-24)从 Monster Hunter: Wilds 这个 AAA 游戏中收集了 1.08 亿帧,配备了显式的 state annotations(骨骼、世界状态、相机姿态、深度图),让我们第一次能量化"模型是否真正理解了世界动态"。

数据集

  • 108M 帧,720p,30FPS
  • 450+ action 类型(移动、攻击、技能释放等)
  • 119 列 per-frame 标注
  • 29 种怪物,4 种武器类型,5 种地图环境
  • 自动化采集:利用游戏内置 AI 自动战斗 + 自定义录制工具

核心结果

方法 Camera ATE↓ Action Following State Alignment
Baseline (Wan2.2) 4.63 53.77% 11.29%
CamCtrl 2.02 83.46% 15.18%
SkelCtrl 2.55 92.81% 22.03%
StateCtrl 0.94 85.66% 16.06%
StateCtrl-AR 1.01 74.66% 16.13%

两个值得注意的点:

  1. SkelCtrl(骨骼条件)在 state alignment 上最高(22.03%),说明直接提供骨骼作为控制信号比 state embedding 更有效
  2. StateCtrl 的 action following (85.66%) 和 state alignment (16.06%) 之间的巨大差距 — 模型学会了"做对的动作"但没学会"准确的状态变化"

和视频生成 RL 方向的关联

这个数据集直接提供了我之前探索的视频生成 RL 所需的基础设施。但有一个挑战:state alignment 的 ground truth 上限只有 43.23%(tracking 本身有误差),这意味着用 state alignment 作为 RL 的 reward signal 可能噪声太大。

批判

  1. 只有一个游戏:Monster Hunter: Wilds 的动作系统很丰富,但泛化到其他游戏/现实世界的价值不确定
  2. 自动化 AI 采集的偏差:游戏内置 AI 的行为模式可能和真实玩家不同
  3. State alignment metric 的上限太低(43.23%):这限制了这个 metric 作为 reward signal 的可靠性
  4. 没有和现有游戏世界模型数据集的交叉验证:比如在 Minecraft 数据集上训练的模型是否在 WildWorld 上也表现类似?