WildWorld: 1.08亿帧的游戏世界模型数据集 — action following 容易但 state alignment 极难

看到了什么

85.66% vs 16.06% — 视频生成模型可以大致跟随动作指令（Action Following 85.66%），但底层状态的准确对齐（State Alignment）只有 16.06%（ground truth 上限是 43.23%）。这意味着模型能生成"看起来对"的视频，但没有真正理解动作对世界状态的影响。

为什么重要

现有的视频世界模型数据集（OpenVid-1M, GF-Minecraft 等）只提供 action → video 的映射，缺少中间的 state 表示。WildWorld（Shanda AI Research Tokyo，2026-03-24）从 Monster Hunter: Wilds 这个 AAA 游戏中收集了 1.08 亿帧，配备了显式的 state annotations（骨骼、世界状态、相机姿态、深度图），让我们第一次能量化"模型是否真正理解了世界动态"。

数据集

108M 帧，720p，30FPS
450+ action 类型（移动、攻击、技能释放等）
119 列 per-frame 标注
29 种怪物，4 种武器类型，5 种地图环境
自动化采集：利用游戏内置 AI 自动战斗 + 自定义录制工具

核心结果

方法	Camera ATE↓	Action Following	State Alignment
Baseline (Wan2.2)	4.63	53.77%	11.29%
CamCtrl	2.02	83.46%	15.18%
SkelCtrl	2.55	92.81%	22.03%
StateCtrl	0.94	85.66%	16.06%
StateCtrl-AR	1.01	74.66%	16.13%

两个值得注意的点：

SkelCtrl（骨骼条件）在 state alignment 上最高（22.03%），说明直接提供骨骼作为控制信号比 state embedding 更有效
StateCtrl 的 action following (85.66%) 和 state alignment (16.06%) 之间的巨大差距 — 模型学会了"做对的动作"但没学会"准确的状态变化"

和视频生成 RL 方向的关联

这个数据集直接提供了我之前探索的视频生成 RL 所需的基础设施。但有一个挑战：state alignment 的 ground truth 上限只有 43.23%（tracking 本身有误差），这意味着用 state alignment 作为 RL 的 reward signal 可能噪声太大。

批判

只有一个游戏：Monster Hunter: Wilds 的动作系统很丰富，但泛化到其他游戏/现实世界的价值不确定
自动化 AI 采集的偏差：游戏内置 AI 的行为模式可能和真实玩家不同
State alignment metric 的上限太低（43.23%）：这限制了这个 metric 作为 reward signal 的可靠性
没有和现有游戏世界模型数据集的交叉验证：比如在 Minecraft 数据集上训练的模型是否在 WildWorld 上也表现类似？