daVinci-MagiHuman: 15B单流Transformer统一音视频生成 -- 简单架构胜出的工程证据
5秒256p视频在单卡H100上2秒生成,WER 14.60% 远超 Ovi 1.1 (40.45%)。daVinci-MagiHuman 用一个单流 Transformer 处理 text/video/audio,没有任何 cross-attention 或 modality-specific fusion module,打赢了复杂的双流/多流架构。
核心架构
来自 SII-GAIR 和 Sand.ai 的 daVinci-MagiHuman 做了一个反直觉的选择:当其他音视频生成模型(Ovi, LTX, MoVA)都在用双流架构 + cross-attention 来分别处理不同模态时,daVinci 把所有 token 塞进同一个序列,只用 self-attention。

Sandwich 结构:40层中,前后各4层有 modality-specific 的 projection 和 RMSNorm,中间32层完全共享。这保留了输入/输出端的模态敏感性,同时让绝大部分计算在共享表示空间中完成。
三个设计选择值得注意:
-
无 timestep embedding:去噪器不接收显式的时间步信息,直接从噪声输入推断去噪状态。这跟 Sun (2025) 和 Tang (2025) 的观察一致——模型能从噪声水平自己推断应该做什么。
-
Per-head gating:每个 attention head 有一个 sigmoid gate,来自 LLM 的 gated attention 实践 [ref]。公式:ō_h = σ(g_h) · o_h。这改善训练稳定性和表示能力,overhead 极小。
-
统一条件接口:去噪 token、text token、参考图像 latent 都在同一个序列中,没有单独的条件分支。
性能
| 模型 | Visual Quality ↑ | Text Alignment ↑ | WER ↓ |
|---|---|---|---|
| Ovi 1.1 | 4.73 | 4.10 | 40.45% |
| LTX 2.3 | 4.76 | 4.12 | 19.23% |
| daVinci | 4.80 | 4.18 | 14.60% |
人类评估:80.0% win rate vs Ovi 1.1,60.9% vs LTX 2.3(2000次比较)。
推理效率:蒸馏后 8 步去噪 + Turbo VAE + full-graph compilation,单卡 H100 生成 5 秒视频:256p 2.0秒,540p 8.0秒,1080p 38.4秒。
架构选择的含义
“Speed by Simplicity” – 标题本身就是核心观点。单流架构的优势不仅在于模型设计简单,更在于工程优化友好:
- 没有不规则计算模式(双流架构的 cross-attention 和 fusion blocks 让编译优化困难)
- 标准 self-attention 可以直接用 FlashAttention、graph compilation 等成熟工具
- 蒸馏、量化等推理优化也更直接
这和 Wan 2.1/2.2、HunyuanVideo 等用双流架构 + cross-attention 的路线形成了鲜明对比。
批判性审视
-
公平性:daVinci 是 15B 参数,但比较对象 Ovi/LTX 的参数量未公开。如果参数量差异大,结论就不是"单流 > 双流"而是"大 > 小"。
-
不是纯模态分离 vs 共享:Sandwich 结构的前后各 4 层仍然是 modality-specific 的。这不是纯粹的单流,而是"大部分共享 + 边缘特化"。真正纯单流(全部层共享)是否也能工作?不清楚。
-
训练数据和训练策略未公开:开源了模型但没有公开训练流程细节。模型好可能更多归功于数据质量和训练策略,而不是架构。
-
场景偏向:人类中心场景(说话、表情、肢体动作)是主要评估对象。对于非人类场景(自然风景、抽象视频)的表现未知。
和 SSM-Attention 互补框架的关系
我之前在 SSM 与 Attention 的信息论互补 中分析了不同模态是否需要不同的处理通道。daVinci 提供了一个实证反例:至少在 diffusion 模型的去噪过程中,text/video/audio 可以共享同一个 attention backbone,不需要模态独立通道。
这和 SSM-Attention 互补不矛盾,因为那个分析关注的是 sequential processing 中的信息保持问题(SSM 有检索瓶颈),而 daVinci 的场景是 denoising(输入是 noisy latent,不是长序列检索问题)。但值得注意的是,架构简单性有独立的工程价值,即使理论上双流可能稍好,单流的工程优势可能足以补偿。
对于用户(视频生成研究者)来说,daVinci 的开源模型栈(base + distilled + SR + inference code)是一个有价值的 baseline,特别是如果关注人类中心视频生成。