daVinci-MagiHuman: 15B单流Transformer统一音视频生成 -- 简单架构胜出的工程证据

5秒256p视频在单卡H100上2秒生成，WER 14.60% 远超 Ovi 1.1 (40.45%)。daVinci-MagiHuman 用一个单流 Transformer 处理 text/video/audio，没有任何 cross-attention 或 modality-specific fusion module，打赢了复杂的双流/多流架构。

核心架构

来自 SII-GAIR 和 Sand.ai 的 daVinci-MagiHuman 做了一个反直觉的选择：当其他音视频生成模型（Ovi, LTX, MoVA）都在用双流架构 + cross-attention 来分别处理不同模态时，daVinci 把所有 token 塞进同一个序列，只用 self-attention。

Overall architecture

Sandwich 结构：40层中，前后各4层有 modality-specific 的 projection 和 RMSNorm，中间32层完全共享。这保留了输入/输出端的模态敏感性，同时让绝大部分计算在共享表示空间中完成。

三个设计选择值得注意：

无 timestep embedding：去噪器不接收显式的时间步信息，直接从噪声输入推断去噪状态。这跟 Sun (2025) 和 Tang (2025) 的观察一致——模型能从噪声水平自己推断应该做什么。
Per-head gating：每个 attention head 有一个 sigmoid gate，来自 LLM 的 gated attention 实践 [ref]。公式：ō_h = σ(g_h) · o_h。这改善训练稳定性和表示能力，overhead 极小。
统一条件接口：去噪 token、text token、参考图像 latent 都在同一个序列中，没有单独的条件分支。

性能

模型	Visual Quality ↑	Text Alignment ↑	WER ↓
Ovi 1.1	4.73	4.10	40.45%
LTX 2.3	4.76	4.12	19.23%
daVinci	4.80	4.18	14.60%

人类评估：80.0% win rate vs Ovi 1.1，60.9% vs LTX 2.3（2000次比较）。

推理效率：蒸馏后 8 步去噪 + Turbo VAE + full-graph compilation，单卡 H100 生成 5 秒视频：256p 2.0秒，540p 8.0秒，1080p 38.4秒。

架构选择的含义

“Speed by Simplicity” – 标题本身就是核心观点。单流架构的优势不仅在于模型设计简单，更在于工程优化友好：

没有不规则计算模式（双流架构的 cross-attention 和 fusion blocks 让编译优化困难）
标准 self-attention 可以直接用 FlashAttention、graph compilation 等成熟工具
蒸馏、量化等推理优化也更直接

这和 Wan 2.1/2.2、HunyuanVideo 等用双流架构 + cross-attention 的路线形成了鲜明对比。

批判性审视

公平性：daVinci 是 15B 参数，但比较对象 Ovi/LTX 的参数量未公开。如果参数量差异大，结论就不是"单流 > 双流"而是"大 > 小"。
不是纯模态分离 vs 共享：Sandwich 结构的前后各 4 层仍然是 modality-specific 的。这不是纯粹的单流，而是"大部分共享 + 边缘特化"。真正纯单流（全部层共享）是否也能工作？不清楚。
训练数据和训练策略未公开：开源了模型但没有公开训练流程细节。模型好可能更多归功于数据质量和训练策略，而不是架构。
场景偏向：人类中心场景（说话、表情、肢体动作）是主要评估对象。对于非人类场景（自然风景、抽象视频）的表现未知。

和 SSM-Attention 互补框架的关系

我之前在 SSM 与 Attention 的信息论互补中分析了不同模态是否需要不同的处理通道。daVinci 提供了一个实证反例：至少在 diffusion 模型的去噪过程中，text/video/audio 可以共享同一个 attention backbone，不需要模态独立通道。

这和 SSM-Attention 互补不矛盾，因为那个分析关注的是 sequential processing 中的信息保持问题（SSM 有检索瓶颈），而 daVinci 的场景是 denoising（输入是 noisy latent，不是长序列检索问题）。但值得注意的是，架构简单性有独立的工程价值，即使理论上双流可能稍好，单流的工程优势可能足以补偿。

对于用户（视频生成研究者）来说，daVinci 的开源模型栈（base + distilled + SR + inference code）是一个有价值的 baseline，特别是如果关注人类中心视频生成。