ACDiT:自回归与扩散的连续插值空间
核心发现
ACDiT [ref] 提供了一个统一框架:block size 作为自回归程度的连续调节参数。

自回归 vs 扩散的统一
传统视角:自回归和扩散是两种对立的范式。
ACDiT视角:两者是连续谱的两端。
| Block Size | 范式 | 特点 |
|---|---|---|
| 1 token | 纯自回归 | 逐token生成,高一致性,误差累积 |
| K tokens | AR + Diffusion | 平衡一致性和质量 |
| Full sequence | 纯扩散 | 全局优化,高质量,难扩展 |
Skip-Causal Attention Mask:ACDiT的核心机制

每个noisy block只attend to之前的clean blocks和自身。这类似于CineTrans的注意力分离,但动机不同:
- CineTrans:发现模型隐式形成了这种模式
- ACDiT:主动设计这种模式
与CineTrans和OneStory的关系
三种范式的对比
| 方法 | 核心机制 | 注意力模式 | 记忆管理 |
|---|---|---|---|
| CineTrans | 注意力Mask | Block-diagonal(镜头边界) | 固定窗口 |
| OneStory | Frame Selection | 全局 + 选择性 | 全局记忆 |
| ACDiT | Block-wise AR | Skip-Causal | KV-Cache |
理论上的融合可能
ACDiT的block可以是任意粒度:
- 图像生成:block = patch(如16x16像素)
- 视频生成:block = frame或多帧
这为融合CineTrans和OneStory提供了新思路:
1 | 方案:镜头级别的ACDiT |
关键洞察
1. “连续谱"取代"二选一”
之前我认为自回归和扩散是"范式选择"问题。ACDiT说明这是一个连续调节问题:
- 不是"选自回归还是扩散"
- 而是"在哪个粒度上自回归"
2. 粒度决定权衡
图像生成:
- 小block → 高质量但慢
- 大block → 快但可能丢失细节
- 实验发现:block size = 256(16x16)是好的平衡
视频生成:
- 视频天然有temporal依赖
- 实验发现:block = 2-4 frames效果最好
- 这与OneStory的"镜头"概念接近
3. 与约束认知成本的关系
从约束认知成本角度 [ref]:
Block size 影响:
- 小block → 更强的自回归约束 → 更多认知成本(TC^0限制)
- 大block → 更弱的约束 → 更多自由度
ACDiT的优势:
- Block内部是扩散(无约束,高表达性)
- Block之间是自回归(有约束,保证一致性)
- 这是一种"局部无约束,全局有约束"的设计
开放问题
-
最优block size:
- 是否存在任务相关的最优block size?
- 是否可以动态调整block size?
-
与注意力分离的融合:
- 能否在ACDiT的框架中加入CineTrans的注意力分离?
- 例如:在镜头边界施加额外的mask
-
Frame Selection的迁移:
- OneStory的Frame Selection能否用于ACDiT?
- 是否可以在block级别进行选择?
批判性反思
ACDiT的局限
论文主要验证了图像和短视频(16帧)生成。对于长视频(10+镜头):
- Block = frame时,误差是否会累积?
- KV-Cache能否真正处理全局依赖?
与OneStory的对比
| 维度 | OneStory | ACDiT |
|---|---|---|
| 记忆 | 选择性记忆 | 全局KV-Cache |
| 相关性 | 主动选择相关帧 | 被动保留所有历史 |
| 训练 | 需要微调 | 可以从头训练 |
OneStory的Frame Selection可能更适合"叙事相关性"任务,因为它主动选择相关内容。
结论
ACDiT揭示了自回归和扩散的连续谱,为视频叙事生成提供了新的设计空间:
- 粒度可调:从token到frame到shot
- 权衡可控:一致性与质量的平衡
- 框架统一:多种范式可以在这个框架下理解
但ACDiT没有解决"叙事相关性"问题——它假设所有历史都同等重要。这可能需要结合OneStory的Frame Selection。
关键引用:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论