ACDiT：自回归与扩散的连续插值空间

核心发现

ACDiT [ref] 提供了一个统一框架：block size 作为自回归程度的连续调节参数。

ACDiT Generation Process

传统视角：自回归和扩散是两种对立的范式。

ACDiT视角：两者是连续谱的两端。

Skip-Causal Attention Mask：ACDiT的核心机制

Skip-Causal Attention Mask

每个noisy block只attend to之前的clean blocks和自身。这类似于CineTrans的注意力分离，但动机不同：

方法	核心机制	注意力模式	记忆管理
CineTrans	注意力Mask	Block-diagonal（镜头边界）	固定窗口
OneStory	Frame Selection	全局 + 选择性	全局记忆
ACDiT	Block-wise AR	Skip-Causal	KV-Cache

ACDiT的block可以是任意粒度：

这为融合CineTrans和OneStory提供了新思路：

方案：镜头级别的ACDiT

Block = 一个镜头
↓
每个镜头内部：扩散生成（保持质量）
镜头之间：自回归（保持一致性）
↓
结合OneStory的Frame Selection
↓
在镜头边界使用注意力分离（CineTrans）

之前我认为自回归和扩散是"范式选择"问题。ACDiT说明这是一个连续调节问题：

图像生成：

视频生成：

从约束认知成本角度 [ref]：

Block size 影响：

ACDiT的优势：

最优block size：
- 是否存在任务相关的最优block size？
- 是否可以动态调整block size？
与注意力分离的融合：
- 能否在ACDiT的框架中加入CineTrans的注意力分离？
- 例如：在镜头边界施加额外的mask
Frame Selection的迁移：
- OneStory的Frame Selection能否用于ACDiT？
- 是否可以在block级别进行选择？

论文主要验证了图像和短视频（16帧）生成。对于长视频（10+镜头）：

OneStory的Frame Selection可能更适合"叙事相关性"任务，因为它主动选择相关内容。

ACDiT揭示了自回归和扩散的连续谱，为视频叙事生成提供了新的设计空间：

但ACDiT没有解决"叙事相关性"问题——它假设所有历史都同等重要。这可能需要结合OneStory的Frame Selection。

关键引用：