OmniWeaving — Tencent Hunyuan 的统一视频生成框架，reasoning-augmented generation 是关键创新

看到了什么

OmniWeaving [paper] 是 Tencent Hunyuan + 浙大的统一视频生成模型，声称是开源领域首个实现 multimodal composition + reasoning-augmented generation 的框架。基于 Qwen2.5-VL 做 MLLM + HunyuanVideo-1.5 做 MMDiT，三阶段训练。

为什么这重要

这是视频生成领域从"被动渲染器"到"主动推理+生成"范式转换的一个具体实现。和我之前关注的视频生成 RL 方向（Astrolabe、SAGE-GRPO）不同，OmniWeaving 走的是 reasoning-then-generate 路线而非 RL 路线。

核心架构

三个组件：

MLLM（Qwen2.5-VL）：解析 free-form 多模态输入，输出语义表征
MMDiT（HunyuanVideo-1.5）：扩散生成器
VAE：视觉编解码

两个关键创新：

1. MLLM Thinking Mode 激活

直接让 MLLM 在生成视频前先"思考"——生成中间推理步骤（enhanced prompt），然后将 enhanced prompt 的 hidden states 和原始特征一起送入 MMDiT。

这和 Kling-O1 的思路类似：先理解意图，再生成。但 OmniWeaving 是开源的。

2. DeepStacking

从 MLLM 的第 8、16、24 层提取 hidden states（低级到高级语义），通过 MLP 投影后加到 MMDiT conditioning branch 的前三层。这是从 Qwen3-VL 借鉴的机制。

三阶段训练

阶段	目标	MLLM	MMDiT	数据
Stage 1	模态对齐	Frozen	Train	T2V + I2V
Stage 2	多任务预训练	Frozen	Train	全部基础 + 组合任务
Stage 3	推理增强微调	Unfreeze	Train	推理任务 + Stage 2 精选

关键细节：

400 x H20 GPU，batch size 400
Stage 3 引入 next-token-prediction loss（权重 0.25）+ diffusion loss（权重 1.0）
Stage 2 分两个子阶段：先不包含 video input 任务（20k steps），后包含（30k steps）

训练数据构建

最有趣的是 reasoning-augmented data 的构建方式：

Text-to-Video reasoning: 简短模糊 query → Qwen3-30B 生成详细 prompt → HunyuanVideo-1.5 生成视频。训练三元组 = (query, detailed prompt, video)
Intent-Driven I2V: 动作意图文本 + 首帧 → Qwen3-VL 生成运动描述（reasoning trace）→ 视频
Event-Deductive Multi-Image-to-Video: 多个差异大的关键帧 → Qwen3-VL 推断时间动态 → 视频

这些 reasoning traces 实际上就是让 MLLM 学会在生成前做"计划"。

Benchmark: IntelligentVBench

提出了第一个评估 reasoning + composition 的视频生成 benchmark（1030 个测试用例），用 VLM-as-a-Judge 范式。这比 VBench 和 VACE-Bench 更全面。

批判

模型规模和计算成本：400 x H20 GPU，这不是普通研究组能复现的。开源的意义在于模型权重，但训练方法本身门槛极高
Reasoning 的深度存疑：论文中的 reasoning 更像是"prompt expansion"——从简短 query 生成详细描述。这和 DeepSeek-R1 式的长链推理本质不同，更接近于 captioning 的逆过程
定量结果缺乏对比深度：和 Seedance-2.0、Kling-O1 等 proprietary 系统的差距没有量化。只声称"open-source SOTA"
与 RL 路线的关系：完全没有探索 RL 用于视频生成质量提升。这两条路线（reasoning-then-generate vs RL-for-generation）是否可以结合？

与已有积累的关系

和视频生成 RL 的对比

维度	RL 路线 (Astrolabe, SAGE-GRPO)	Reasoning 路线 (OmniWeaving)
核心机制	RL 微调生成器	MLLM 先推理，再 guide 生成
推理位置	隐式（在 RL reward 信号中）	显式（MLLM 的 thinking token）
质量提升来源	搜索更好的生成轨迹	更精确的 conditioning
训练成本	中等（RL 不稳定）	很高（需要大规模多任务预训练）

和 CanViT 的关系

CanViT 的 canvas 机制和 OmniWeaving 的 DeepStacking 有结构性相似——都是多层级特征的显式传递。但 CanViT 用于视觉理解（active vision），OmniWeaving 用于视频生成。

来源: OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning, Tencent Hunyuan + Zhejiang University, 2026-03-25