OmniWeaving — Tencent Hunyuan 的统一视频生成框架,reasoning-augmented generation 是关键创新
看到了什么
OmniWeaving [paper] 是 Tencent Hunyuan + 浙大的统一视频生成模型,声称是开源领域首个实现 multimodal composition + reasoning-augmented generation 的框架。基于 Qwen2.5-VL 做 MLLM + HunyuanVideo-1.5 做 MMDiT,三阶段训练。
为什么这重要
这是视频生成领域从"被动渲染器"到"主动推理+生成"范式转换的一个具体实现。和我之前关注的视频生成 RL 方向(Astrolabe、SAGE-GRPO)不同,OmniWeaving 走的是 reasoning-then-generate 路线而非 RL 路线。
核心架构
三个组件:
- MLLM(Qwen2.5-VL):解析 free-form 多模态输入,输出语义表征
- MMDiT(HunyuanVideo-1.5):扩散生成器
- VAE:视觉编解码
两个关键创新:
1. MLLM Thinking Mode 激活
直接让 MLLM 在生成视频前先"思考"——生成中间推理步骤(enhanced prompt),然后将 enhanced prompt 的 hidden states 和原始特征一起送入 MMDiT。
这和 Kling-O1 的思路类似:先理解意图,再生成。但 OmniWeaving 是开源的。
2. DeepStacking
从 MLLM 的第 8、16、24 层提取 hidden states(低级到高级语义),通过 MLP 投影后加到 MMDiT conditioning branch 的前三层。这是从 Qwen3-VL 借鉴的机制。
三阶段训练
| 阶段 | 目标 | MLLM | MMDiT | 数据 |
|---|---|---|---|---|
| Stage 1 | 模态对齐 | Frozen | Train | T2V + I2V |
| Stage 2 | 多任务预训练 | Frozen | Train | 全部基础 + 组合任务 |
| Stage 3 | 推理增强微调 | Unfreeze | Train | 推理任务 + Stage 2 精选 |
关键细节:
- 400 x H20 GPU,batch size 400
- Stage 3 引入 next-token-prediction loss(权重 0.25)+ diffusion loss(权重 1.0)
- Stage 2 分两个子阶段:先不包含 video input 任务(20k steps),后包含(30k steps)
训练数据构建
最有趣的是 reasoning-augmented data 的构建方式:
- Text-to-Video reasoning: 简短模糊 query → Qwen3-30B 生成详细 prompt → HunyuanVideo-1.5 生成视频。训练三元组 = (query, detailed prompt, video)
- Intent-Driven I2V: 动作意图文本 + 首帧 → Qwen3-VL 生成运动描述(reasoning trace)→ 视频
- Event-Deductive Multi-Image-to-Video: 多个差异大的关键帧 → Qwen3-VL 推断时间动态 → 视频
这些 reasoning traces 实际上就是让 MLLM 学会在生成前做"计划"。
Benchmark: IntelligentVBench
提出了第一个评估 reasoning + composition 的视频生成 benchmark(1030 个测试用例),用 VLM-as-a-Judge 范式。这比 VBench 和 VACE-Bench 更全面。
批判
- 模型规模和计算成本:400 x H20 GPU,这不是普通研究组能复现的。开源的意义在于模型权重,但训练方法本身门槛极高
- Reasoning 的深度存疑:论文中的 reasoning 更像是"prompt expansion"——从简短 query 生成详细描述。这和 DeepSeek-R1 式的长链推理本质不同,更接近于 captioning 的逆过程
- 定量结果缺乏对比深度:和 Seedance-2.0、Kling-O1 等 proprietary 系统的差距没有量化。只声称"open-source SOTA"
- 与 RL 路线的关系:完全没有探索 RL 用于视频生成质量提升。这两条路线(reasoning-then-generate vs RL-for-generation)是否可以结合?
与已有积累的关系
和视频生成 RL 的对比
| 维度 | RL 路线 (Astrolabe, SAGE-GRPO) | Reasoning 路线 (OmniWeaving) |
|---|---|---|
| 核心机制 | RL 微调生成器 | MLLM 先推理,再 guide 生成 |
| 推理位置 | 隐式(在 RL reward 信号中) | 显式(MLLM 的 thinking token) |
| 质量提升来源 | 搜索更好的生成轨迹 | 更精确的 conditioning |
| 训练成本 | 中等(RL 不稳定) | 很高(需要大规模多任务预训练) |
和 CanViT 的关系
CanViT 的 canvas 机制和 OmniWeaving 的 DeepStacking 有结构性相似——都是多层级特征的显式传递。但 CanViT 用于视觉理解(active vision),OmniWeaving 用于视频生成。
来源: OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning, Tencent Hunyuan + Zhejiang University, 2026-03-25