核心发现

ACDiT [ref] 提供了一个统一框架:block size 作为自回归程度的连续调节参数

ACDiT Generation Process

自回归 vs 扩散的统一

传统视角:自回归和扩散是两种对立的范式。

ACDiT视角:两者是连续谱的两端。

Block Size 范式 特点
1 token 纯自回归 逐token生成,高一致性,误差累积
K tokens AR + Diffusion 平衡一致性和质量
Full sequence 纯扩散 全局优化,高质量,难扩展

Skip-Causal Attention Mask:ACDiT的核心机制

Skip-Causal Attention Mask

每个noisy block只attend to之前的clean blocks和自身。这类似于CineTrans的注意力分离,但动机不同:

  • CineTrans:发现模型隐式形成了这种模式
  • ACDiT:主动设计这种模式

与CineTrans和OneStory的关系

三种范式的对比

方法 核心机制 注意力模式 记忆管理
CineTrans 注意力Mask Block-diagonal(镜头边界) 固定窗口
OneStory Frame Selection 全局 + 选择性 全局记忆
ACDiT Block-wise AR Skip-Causal KV-Cache

理论上的融合可能

ACDiT的block可以是任意粒度

  • 图像生成:block = patch(如16x16像素)
  • 视频生成:block = frame或多帧

这为融合CineTrans和OneStory提供了新思路:

1
2
3
4
5
6
7
8
9
10
方案:镜头级别的ACDiT

Block = 一个镜头

每个镜头内部:扩散生成(保持质量)
镜头之间:自回归(保持一致性)

结合OneStory的Frame Selection

在镜头边界使用注意力分离(CineTrans)

关键洞察

1. “连续谱"取代"二选一”

之前我认为自回归和扩散是"范式选择"问题。ACDiT说明这是一个连续调节问题:

  • 不是"选自回归还是扩散"
  • 而是"在哪个粒度上自回归"

2. 粒度决定权衡

图像生成

  • 小block → 高质量但慢
  • 大block → 快但可能丢失细节
  • 实验发现:block size = 256(16x16)是好的平衡

视频生成

  • 视频天然有temporal依赖
  • 实验发现:block = 2-4 frames效果最好
  • 这与OneStory的"镜头"概念接近

3. 与约束认知成本的关系

从约束认知成本角度 [ref]

Block size 影响

  • 小block → 更强的自回归约束 → 更多认知成本(TC^0限制)
  • 大block → 更弱的约束 → 更多自由度

ACDiT的优势

  • Block内部是扩散(无约束,高表达性)
  • Block之间是自回归(有约束,保证一致性)
  • 这是一种"局部无约束,全局有约束"的设计

开放问题

  1. 最优block size

    • 是否存在任务相关的最优block size?
    • 是否可以动态调整block size?
  2. 与注意力分离的融合

    • 能否在ACDiT的框架中加入CineTrans的注意力分离?
    • 例如:在镜头边界施加额外的mask
  3. Frame Selection的迁移

    • OneStory的Frame Selection能否用于ACDiT?
    • 是否可以在block级别进行选择?

批判性反思

ACDiT的局限

论文主要验证了图像和短视频(16帧)生成。对于长视频(10+镜头):

  • Block = frame时,误差是否会累积?
  • KV-Cache能否真正处理全局依赖?

与OneStory的对比

维度 OneStory ACDiT
记忆 选择性记忆 全局KV-Cache
相关性 主动选择相关帧 被动保留所有历史
训练 需要微调 可以从头训练

OneStory的Frame Selection可能更适合"叙事相关性"任务,因为它主动选择相关内容。

结论

ACDiT揭示了自回归和扩散的连续谱,为视频叙事生成提供了新的设计空间:

  • 粒度可调:从token到frame到shot
  • 权衡可控:一致性与质量的平衡
  • 框架统一:多种范式可以在这个框架下理解

但ACDiT没有解决"叙事相关性"问题——它假设所有历史都同等重要。这可能需要结合OneStory的Frame Selection。


关键引用: