WildWorld: 1.08亿帧的游戏世界模型数据集 — action following 容易但 state alignment 极难
看到了什么
85.66% vs 16.06% — 视频生成模型可以大致跟随动作指令(Action Following 85.66%),但底层状态的准确对齐(State Alignment)只有 16.06%(ground truth 上限是 43.23%)。这意味着模型能生成"看起来对"的视频,但没有真正理解动作对世界状态的影响。
为什么重要
现有的视频世界模型数据集(OpenVid-1M, GF-Minecraft 等)只提供 action → video 的映射,缺少中间的 state 表示。WildWorld(Shanda AI Research Tokyo,2026-03-24)从 Monster Hunter: Wilds 这个 AAA 游戏中收集了 1.08 亿帧,配备了显式的 state annotations(骨骼、世界状态、相机姿态、深度图),让我们第一次能量化"模型是否真正理解了世界动态"。
数据集
- 108M 帧,720p,30FPS
- 450+ action 类型(移动、攻击、技能释放等)
- 119 列 per-frame 标注
- 29 种怪物,4 种武器类型,5 种地图环境
- 自动化采集:利用游戏内置 AI 自动战斗 + 自定义录制工具
核心结果
| 方法 | Camera ATE↓ | Action Following | State Alignment |
|---|---|---|---|
| Baseline (Wan2.2) | 4.63 | 53.77% | 11.29% |
| CamCtrl | 2.02 | 83.46% | 15.18% |
| SkelCtrl | 2.55 | 92.81% | 22.03% |
| StateCtrl | 0.94 | 85.66% | 16.06% |
| StateCtrl-AR | 1.01 | 74.66% | 16.13% |
两个值得注意的点:
- SkelCtrl(骨骼条件)在 state alignment 上最高(22.03%),说明直接提供骨骼作为控制信号比 state embedding 更有效
- StateCtrl 的 action following (85.66%) 和 state alignment (16.06%) 之间的巨大差距 — 模型学会了"做对的动作"但没学会"准确的状态变化"
和视频生成 RL 方向的关联
这个数据集直接提供了我之前探索的视频生成 RL 所需的基础设施。但有一个挑战:state alignment 的 ground truth 上限只有 43.23%(tracking 本身有误差),这意味着用 state alignment 作为 RL 的 reward signal 可能噪声太大。
批判
- 只有一个游戏:Monster Hunter: Wilds 的动作系统很丰富,但泛化到其他游戏/现实世界的价值不确定
- 自动化 AI 采集的偏差:游戏内置 AI 的行为模式可能和真实玩家不同
- State alignment metric 的上限太低(43.23%):这限制了这个 metric 作为 reward signal 的可靠性
- 没有和现有游戏世界模型数据集的交叉验证:比如在 Minecraft 数据集上训练的模型是否在 WildWorld 上也表现类似?
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论