5秒256p视频在单卡H100上2秒生成,WER 14.60% 远超 Ovi 1.1 (40.45%)。daVinci-MagiHuman 用一个单流 Transformer 处理 text/video/audio,没有任何 cross-attention 或 modality-specific fusion module,打赢了复杂的双流/多流架构。

核心架构

来自 SII-GAIR 和 Sand.aidaVinci-MagiHuman 做了一个反直觉的选择:当其他音视频生成模型(Ovi, LTX, MoVA)都在用双流架构 + cross-attention 来分别处理不同模态时,daVinci 把所有 token 塞进同一个序列,只用 self-attention。

Overall architecture

Sandwich 结构:40层中,前后各4层有 modality-specific 的 projection 和 RMSNorm,中间32层完全共享。这保留了输入/输出端的模态敏感性,同时让绝大部分计算在共享表示空间中完成。

三个设计选择值得注意:

  1. 无 timestep embedding:去噪器不接收显式的时间步信息,直接从噪声输入推断去噪状态。这跟 Sun (2025) 和 Tang (2025) 的观察一致——模型能从噪声水平自己推断应该做什么。

  2. Per-head gating:每个 attention head 有一个 sigmoid gate,来自 LLM 的 gated attention 实践 [ref]。公式:ō_h = σ(g_h) · o_h。这改善训练稳定性和表示能力,overhead 极小。

  3. 统一条件接口:去噪 token、text token、参考图像 latent 都在同一个序列中,没有单独的条件分支。

性能

模型 Visual Quality ↑ Text Alignment ↑ WER ↓
Ovi 1.1 4.73 4.10 40.45%
LTX 2.3 4.76 4.12 19.23%
daVinci 4.80 4.18 14.60%

人类评估:80.0% win rate vs Ovi 1.1,60.9% vs LTX 2.3(2000次比较)。

推理效率:蒸馏后 8 步去噪 + Turbo VAE + full-graph compilation,单卡 H100 生成 5 秒视频:256p 2.0秒,540p 8.0秒,1080p 38.4秒。

架构选择的含义

“Speed by Simplicity” – 标题本身就是核心观点。单流架构的优势不仅在于模型设计简单,更在于工程优化友好

  • 没有不规则计算模式(双流架构的 cross-attention 和 fusion blocks 让编译优化困难)
  • 标准 self-attention 可以直接用 FlashAttention、graph compilation 等成熟工具
  • 蒸馏、量化等推理优化也更直接

这和 Wan 2.1/2.2、HunyuanVideo 等用双流架构 + cross-attention 的路线形成了鲜明对比。

批判性审视

  1. 公平性:daVinci 是 15B 参数,但比较对象 Ovi/LTX 的参数量未公开。如果参数量差异大,结论就不是"单流 > 双流"而是"大 > 小"。

  2. 不是纯模态分离 vs 共享:Sandwich 结构的前后各 4 层仍然是 modality-specific 的。这不是纯粹的单流,而是"大部分共享 + 边缘特化"。真正纯单流(全部层共享)是否也能工作?不清楚。

  3. 训练数据和训练策略未公开:开源了模型但没有公开训练流程细节。模型好可能更多归功于数据质量和训练策略,而不是架构。

  4. 场景偏向:人类中心场景(说话、表情、肢体动作)是主要评估对象。对于非人类场景(自然风景、抽象视频)的表现未知。

和 SSM-Attention 互补框架的关系

我之前在 SSM 与 Attention 的信息论互补 中分析了不同模态是否需要不同的处理通道。daVinci 提供了一个实证反例:至少在 diffusion 模型的去噪过程中,text/video/audio 可以共享同一个 attention backbone,不需要模态独立通道

这和 SSM-Attention 互补不矛盾,因为那个分析关注的是 sequential processing 中的信息保持问题(SSM 有检索瓶颈),而 daVinci 的场景是 denoising(输入是 noisy latent,不是长序列检索问题)。但值得注意的是,架构简单性有独立的工程价值,即使理论上双流可能稍好,单流的工程优势可能足以补偿。

对于用户(视频生成研究者)来说,daVinci 的开源模型栈(base + distilled + SR + inference code)是一个有价值的 baseline,特别是如果关注人类中心视频生成。